Didžiųjų skaičių dėsnis (LLN) yra statistikos teorema, teigianti, kad stebimų atsitiktinių reiškinių ilguoju laikotarpiu pateikiama informacija tampa stabili. Panagrinėkime procesą, kuriame pakartotinai stebimas tas pats atsitiktinis kintamasis. Jei kiekviena stebėjimo reikšmė turi tą pačią laukiamosios vertės (vidurkio) reikšmę ir tam tikrus papildomus sąlygos (pvz., nepriklausomumas), tai stebėjimų vidurkis laikui bėgant artės prie tos laukiamosios vertės. Kitaip tariant, kai stebimų reikšmių skaičius n didėja, mėginio vidurkis X̄_n = (1/n) Σ_{i=1}^n X_i tampa vis arčiau tikrosios populiacijos vidurkės.

Intuityvus paaiškinimas

Trumpai tariant, atsižvelgiant į daug kartų pakartotą tą patį eksperimentą, atsitiktiniai nukrypimai „atšviečia“ vieni kitus: aukšti ir žemi rezultatai vienas kitą dalinai kompensuoja. Todėl ilgą laiką stebėti vidurkiai sumažina atsitiktinių nukrypimų poveikį ir priartėja prie nuolatinės reikšmės — laukiamosios vertės.

Formuluotės rūšys

Yra dvi pagrindinės LLN formuluotės, skirtingos pagal to, kaip suprantama „artėjimas“:

  • Silpnas didžiųjų skaičių dėsnis (WLLN) — mėginio vidurkis X̄_n konverguoja tikimybėje prie laukiamosios vertės μ: už kiekvieną ε > 0 tikimybė, kad |X̄_n − μ| > ε, eina į 0, kai n → ∞.
  • Stiprus didžiųjų skaičių dėsnis (SLLN) — X̄_n konverguoja bejausmiškai (almost surely) prie μ, t. y. su tikimybe 1 X̄_n → μ, kai n → ∞. Tai griežtesnė konvergencija nei tikimybėje.

Pagrindinės sąlygos

Dažniausiai pateikiama LLN sąlyga: stebėjimai yra nepriklausomi ir identiškai pasiskirstę (i.i.d.) atsitiktiniai kintamieji su baigtine laukiąja verte E[X] = μ. Esant šioms sąlygoms:

  • WLLN galima įrodyti naudojant Čebyševo nelygybę (jei dispersija yra baigtinė).
  • SLLN reikalauja griežtesnių techninių sąlygų (pvz., Kolmogorovo SLLN: nepriklausomiems kintamiesiems su baigtine laukiąja verte dažnai pakanka papildomų pažinčių apie dispersijas arba martingalų sąlygų).

Pavyzdžiai

Kai metate kauliuką, galimi skaičiai yra 1, 2, 3, 4, 5 ir 6. Visi jie vienodai tikėtini. Rezultatų populiacijos vidurkis (arba "laukiama vertė") yra:

(1 + 2 + 3 + 4 + 5 + 6) / 6 = 3.5.

Toliau pateiktoje diagramoje pavaizduoti kauliuko metimo eksperimento rezultatai. Šiame eksperimente matyti, kad iš pradžių kauliuko metimo vidurkis labai svyruoja. Kaip ir numatyta pagal LLN, vidurkis stabilizuojasi ties laukiama 3,5 reikšme, kai stebėjimų skaičius tampa didelis.

A demonstration of the Law of Large Numbers using die rolls

Kiti paprasti pavyzdžiai:

  • Monetos metimai: ilgame laikotarpyje proporcija „skaičius galva“ artės prie 0.5.
  • Vidutinė pajamų ar balų imtis iš didelės populiacijos suteiks tikslią populiacijos vidurkio apytikrą įvertį.

Ką LLN nereiškia

  • LLN nereiškia, kad per trumpą laiką rezultatai jau turi atrodyti „normalūs“ — pradinės svyravimų fazės gali būti didelės.
  • LLN nereiškia, kad atsitiktinių reiškinių seka taps periodiška ar kokia kita deterministinė forma — ji tiesiog apriboja ilgalaikį vidurkio elgesį.

Apribojimai ir išimtys

LLN gali žlugti arba neatitikti, jei sąlygos nėra tenkinamos. Pavyzdžiai:

  • Jei kintamieji neturi baigtinės laukiamosios vertės (pvz., kai paskirstymo „uodegos“ per sunkios), LLN standartine forma gali nebepatekti.
  • Stiprūs priklausomybės ryšiai tarp stebėjimų (pvz., tam tikri auto-regresyvūs procesai be ergodinių savybių) gali kliudyti paprastai LLN taikymui.

Praktinė reikšmė

Didžiųjų skaičių dėsnis yra kertinė statistikos ir duomenų analizės samprata:

  • Paaiškina, kodėl didesni imčių dydžiai duoda patikimesnius vidurkių įverčius.
  • Pagrindžia praktiką rinkti daug stebėjimų (apklausas, eksperimentus, Monte Carlo simuliacijas), kad sumažintume atsitiktinę paklaidą.
  • Derinamas su centrine ribine teorema (CLT), kuri nurodo ne tik linkimą (konvergenciją), bet ir tempą, kuriuo skirstinys artėja prie normalaus ribinio pasiskirstymo (matuojant skalėje sqrt(n)).

Įrodymo idėjos (be techninių detalių)

  • SILPNAS LLN: dažnai įrodoma per Čebyševo nelygybę ir dispersijos mažėjimą kaip 1/n, kas leidžia parodyti konvergenciją tikimybėje.
  • STIPRUS LLN: reikalauja detalesnių priemonių (pvz., Kolmogorovo arba Kolmogorovo–Hincino teorijų) ir naudoja skirtingas technikas, kad parodytų vienaskaitinę konvergenciją su tikimybe 1.

Apibendrinant: Didžiųjų skaičių dėsnis suteikia pažinimą, kodėl vidurkiai ir proporcijos tampa patikimesni, kai duomenų kiekis auga, ir yra vienas iš pagrindinių principų, paaiškinančių statistinių metodų veikimą praktikoje.