Zipfo dėsnis — empirinis žodžių dažnio ir rango principas
Zipfo dėsnis yra empirinis dėsnis, suformuluotas naudojant matematinę statistiką, pavadintas jį pasiūliusio lingvisto George'o Kingsley Zipfo vardu.
Zipfo dėsnis teigia, kad esant didelei vartojamų žodžių imčiai, bet kurio žodžio dažnis yra atvirkščiai proporcingas jo rangui dažnių lentelėje. Taigi n numeriu pažymėto žodžio dažnis yra proporcingas 1/n.
Taigi dažniausiai pasitaikantis žodis pasitaikys maždaug du kartus dažniau nei antras pagal dažnumą žodis, tris kartus dažniau nei trečias pagal dažnumą žodis ir t. t. Pavyzdžiui, vienoje anglų kalbos žodžių imtyje dažniausiai pasitaikantis žodis "the" sudaro beveik 7 % visų žodžių (69 971 iš šiek tiek daugiau nei 1 milijono). Pagal Zipfo dėsnį antroje vietoje esantis žodis "of" sudaro kiek daugiau nei 3,5 % žodžių (36 411 atvejų), po jo eina žodis "and" (28 852 atvejai). Kad būtų sudaryta pusė didelės imties žodžių, reikia tik apie 135 žodžių.
Tokia pati priklausomybė pasireiškia ir daugelyje kitų su kalba nesusijusių reitingų, pavyzdžiui, įvairių šalių miestų gyventojų skaičiaus, korporacijų dydžio, pajamų reitingų ir pan. Pasiskirstymo atsiradimą miestų reitinguose pagal gyventojų skaičių pirmasis pastebėjo Feliksas Auerbachas 1913 m.
Nežinoma, kodėl Zipfo dėsnis galioja daugumai kalbų.
Trumpas matematinis apibūdinimas
Zipfo dėsnis dažnai užrašomas kaip r-to pagal rangą elemento dažnis proporcingas 1/rs:
f(r) ∝ 1 / rs, kur dažniausiai s ≈ 1. Normalizuotai, riboto dydžio korpusui su N skirtingų žodžių tikimybė, kad pasirinktas žodis turi rangą r, yra
p(r) = 1 / (rs HN,s),
čia HN,s = Σk=1N k−s yra normalizavimo konstanta (generalizuotas Harmoninės skaičiaus išplėtimas). Kai s ≤ 1 ir N → ∞, normalizavimas gali diverguoti, todėl praktikoje s reikšmė ir imties dydis yra svarbūs.
Variacijos ir susijusios formulės
- Mandelbroto modifikacija: G. Mandelbrot pasiūlė variantą f(r) ∝ 1 / (r + q)s, kur q yra poslinkis, gerinantis atitikimą mažosioms rangų eilėms (aukšti dažniai).
- Pareto ryšys: Zipfo dėsnis rangų–dažnių skalėje koreliuoja su Pareto pasiskirstymu masinių dydžių paskirstymuose (pvz., pajamos, įmonių dydžiai).
- Heapso dėsnis: ryšys tarp bendros teksto apimties ir unikalių žodžių skaičiaus (V(N) ∝ Nβ), kur β paprastai mažesnis už 1, glaudžiai susijęs su Zipfo parametrais.
Modeliai ir bandymai aiškinti
Yra keli pasiūlymai, kodėl atsiranda Zipfo tipo pasiskirstymai; nė vienas nėra universaliai priimtas:
- Principas „mažiausio pastangų“: Zipfas pats siūlė, kad žmonės linkę taupyti pastangas — tiek kalbėtojai, tiek klausytojai daro kompromisą tarp išraiškos paprastumo ir aiškumo.
- Preferencinis prisegimas (Simon modelis): elementai, kurie jau yra dažni, turi didesnę tikimybę dar labiau išpopuliarėti — tai natūraliai sukuria galios dėsnį.
- Atsitiktinio teksto / „random typing“ modeliai: paprasti atsitiktinių procesų modeliai kartais gali imituoti Zipfo panašų pasiskirstymą.
- Optimizacijos ir informacijos teorijos modeliai: teorijos, grindžiamos informacijos perdavimo efektyvumu arba komunikacijos sąnaudų optimizacija.
Taikymas ir reikšmė
Kalbotyroje ir NLP: Zipfo dėsnis svarbus leksikos modeliavimui, teksto suspaudimui ir paieškos sistemoms — jis paaiškina, kodėl labai mažas žodžių rinkinys sudaro didžiąją teksto dalį, o daug žodžių pasitaiko retai.
Kitose srityse: Zipfo tipo dėsniai pastebimi miestų gyventojų pasiskirstyme, interneto svetainių lankomume, korporacijų dydyje, mokslo citavime, žemės drebėjimų energijos pasiskirstyme (gutenbergo–richterio dėsnis turi panašią „galios“ formą) ir kt.
Praktinės pastabos ir ribotumai
- Zipfo dėsnis yra empirinė apžvalga — jis gerai aprašo daug realių duomenų, bet nėra griežtas teisyklių rinkinys. Daugelyje imčių matyti nukrypimai, ypač aukščiausio rango (labai dažni) ir labai retų žodžių dalyje.
- Reikšmės įvertinimas: paprastas regresinis tiesinės eilutės pritaikymas log–log skalėje gali duoti šališkus rezultatus; patikimiausias metodas dažnai yra tikimybinis vertinimas (pvz., maksimalios tikimybės metodai) ir atitikties testai.
- Kalbų ir žanrų skirtumai: eksponentas s dažniausiai artimas 1, bet gali skirtis tarp kalbų, rašinių tipų (literatūra, žurnalistika, techniniai tekstai) ir korpuso dydžio.
Išvados
Zipfo dėsnis yra galingas ir plačiai stebimas empirinis reiškinys, atskleidžiantis, kad dauguma sistemų, susijusių su lankomumu, daiktų dydžiu ar žodžių vartojimu, linkusios į „galios“ tipo pasiskirstymą. Nors jo priežastys vis dar yra diskutuojamos, dėsnio buvimas padeda suprasti ir modeliuoti kalbos elgseną, ekonominius ir socialinius tinklus bei optimizuoti technologijas, susijusias su tekstų apdorojimu ir informacijos paieška.
Klausimai ir atsakymai
K: Kas yra Zipfo dėsnis?
A: Zipfo dėsnis yra empirinis dėsnis, kuris teigia, kad žodžio dažnis didelėje imtyje yra atvirkščiai proporcingas jo rangui dažnių lentelėje.
K: Kas pasiūlė Zipfo dėsnį?
A: Pirmasis Zipfo dėsnį pasiūlė lingvistas George'as Kingsley Zipfas.
K: Kaip Zipfo dėsnis paaiškina žodžių dažnumą anglų kalbos žodžių imtyje?
A: Pagal Zipfo dėsnį dažniausiai pasitaikantis žodis angliškų žodžių imtyje pasitaiko maždaug du kartus dažniau nei antras pagal dažnumą žodis, tris kartus dažniau nei trečias pagal dažnumą žodis ir t. t. Ši tendencija išlieka, kai žodžio rangas mažėja.
K: Kokią procentinę visų žodžių dalį sudaro dažniausiai pasitaikantis žodis vienoje anglų kalbos žodžių imtyje?
A: Vienoje anglų kalbos žodžių imtyje dažniausiai pasitaikantis žodis ("the") sudaro beveik 7 % visų žodžių.
K: Koks yra santykis tarp žodžių skaičiaus, reikalingo pusei imties sudaryti, ir tų žodžių dažnumo?
Atsakymas: Pagal Zipfo dėsnį, norint sudaryti pusę didelės imties žodžių, reikia tik apie 135 žodžių.
K: Kokiems dar reitingams būdingas Zipfo dėsnis?
Atsakymas: Tas pats ryšys, kurį Zipfo dėsnis aprašo žodžių dažnumui, pasireiškia ir kituose su kalba nesusijusiuose reitinguose, pavyzdžiui, įvairių šalių miestų gyventojų, korporacijų dydžių ir pajamų reitinguose.
Klausimas: Kas pastebėjo, kad miestų reitinguose pagal gyventojų skaičių atsirado pasiskirstymas?
A: Pasiskirstymo miestų reitinguose pagal gyventojų skaičių atsiradimą pirmasis pastebėjo Feliksas Auerbachas 1913 m.