Zipfo dėsnis
Zipfo dėsnis yra empirinis dėsnis, suformuluotas naudojant matematinę statistiką, pavadintas jį pasiūliusio lingvisto George'o Kingsley Zipfo vardu.
Zipfo dėsnis teigia, kad esant didelei vartojamų žodžių imčiai, bet kurio žodžio dažnis yra atvirkščiai proporcingas jo rangui dažnių lentelėje. Taigi n numeriu pažymėto žodžio dažnis yra proporcingas 1/n.
Taigi dažniausiai pasitaikantis žodis pasitaikys maždaug du kartus dažniau nei antras pagal dažnumą žodis, tris kartus dažniau nei trečias pagal dažnumą žodis ir t. t. Pavyzdžiui, vienoje anglų kalbos žodžių imtyje dažniausiai pasitaikantis žodis "the" sudaro beveik 7 % visų žodžių (69 971 iš šiek tiek daugiau nei 1 milijono). Pagal Zipfo dėsnį antroje vietoje esantis žodis "of" sudaro kiek daugiau nei 3,5 % žodžių (36 411 atvejų), po jo eina žodis "and" (28 852 atvejai). Kad būtų sudaryta pusė didelės imties žodžių, reikia tik apie 135 žodžių.
Tokia pati priklausomybė pasireiškia ir daugelyje kitų su kalba nesusijusių reitingų, pavyzdžiui, įvairių šalių miestų gyventojų skaičiaus, korporacijų dydžio, pajamų reitingų ir pan. Pasiskirstymo atsiradimą miestų reitinguose pagal gyventojų skaičių pirmasis pastebėjo Feliksas Auerbachas 1913 m.
Nežinoma, kodėl Zipfo dėsnis galioja daugumai kalbų.
Klausimai ir atsakymai
K: Kas yra Zipfo dėsnis?
A: Zipfo dėsnis yra empirinis dėsnis, kuris teigia, kad žodžio dažnis didelėje imtyje yra atvirkščiai proporcingas jo rangui dažnių lentelėje.
K: Kas pasiūlė Zipfo dėsnį?
A: Pirmasis Zipfo dėsnį pasiūlė lingvistas George'as Kingsley Zipfas.
K: Kaip Zipfo dėsnis paaiškina žodžių dažnumą anglų kalbos žodžių imtyje?
A: Pagal Zipfo dėsnį dažniausiai pasitaikantis žodis angliškų žodžių imtyje pasitaiko maždaug du kartus dažniau nei antras pagal dažnumą žodis, tris kartus dažniau nei trečias pagal dažnumą žodis ir t. t. Ši tendencija išlieka, kai žodžio rangas mažėja.
K: Kokią procentinę visų žodžių dalį sudaro dažniausiai pasitaikantis žodis vienoje anglų kalbos žodžių imtyje?
A: Vienoje anglų kalbos žodžių imtyje dažniausiai pasitaikantis žodis ("the") sudaro beveik 7 % visų žodžių.
K: Koks yra santykis tarp žodžių skaičiaus, reikalingo pusei imties sudaryti, ir tų žodžių dažnumo?
Atsakymas: Pagal Zipfo dėsnį, norint sudaryti pusę didelės imties žodžių, reikia tik apie 135 žodžių.
K: Kokiems dar reitingams būdingas Zipfo dėsnis?
Atsakymas: Tas pats ryšys, kurį Zipfo dėsnis aprašo žodžių dažnumui, pasireiškia ir kituose su kalba nesusijusiuose reitinguose, pavyzdžiui, įvairių šalių miestų gyventojų, korporacijų dydžių ir pajamų reitinguose.
Klausimas: Kas pastebėjo, kad miestų reitinguose pagal gyventojų skaičių atsirado pasiskirstymas?
A: Pasiskirstymo miestų reitinguose pagal gyventojų skaičių atsiradimą pirmasis pastebėjo Feliksas Auerbachas 1913 m.