Statistinės paklaidos ir liekanos atsiranda, nes matavimas niekada nebūna tikslus. Tiksliai išmatuoti neįmanoma, tačiau galima įvertinti, kiek tikslus yra matavimas, ir aprašyti klaidų savybes taikant statistiką.
Apibrėžimai
Klaidos ir liekanos reiškia skirtumą tarp stebėtos arba išmatuotos vertės ir tikrosios (bet paprastai nežinomos) vertės. Jeigu yra tik vienas atsitiktinis kintamasis, galima atskirti dvi pagrindines sąvokas:
- Statistinė (populiacijos) paklaida — skirtumas tarp individo stebimos reikšmės xi ir tikrosios populiacijos vidurkio μ: ei = xi − μ. Tai yra atsitiktinis dydis, priklausantis nuo to, kurio individo matavimas yra svarstomas.
- Liekana (residualas) — skirtumas tarp individo stebimos reikšmės xi ir imties vidurkio x̄ (arba modelio prognozės ŷ): ri = xi − x̄ (arba ri = yi − ŷi regresijoje). Liekana yra „statistinės paklaidos įvertis“ — ji priklauso nuo to, kaip mes įvertiname populiacijos parametrą.
Paprastas pavyzdys: atliekamas eksperimentas, kuriuo siekiama išmatuoti tam tikroje vietovėje gyvenančių 21 metų vyrų ūgį. Jei populiacijos vidurkis (μ) yra 1,75 m:
- Jei vieno atsitiktinai pasirinkto vyro ūgis xi = 1,80 m, tada statistinė paklaida ei = 1,80 − 1,75 = 0,05 m (5 cm).
- Jei kito vyro ūgis xi = 1,70 m, ei = −0,05 m (−5 cm).
Jeigu imame n vyrų ir apskaičiuojame imties vidurkį x̄ kaip populiacijos vidurkio įvertį, tuomet kiekvieno stebėjimo liekana yra ri = xi − x̄. Tokiu būdu:
- Skirtumas tarp kiekvieno imties vyro ūgio ir nepastebimo populiacijos vidurkio yra statistinė paklaida.
- Skirtumas tarp kiekvieno imties vyro ūgio ir stebimo imties vidurkio yra liekana.
Savybės ir matematinės pasekmės
- Sumuojant liekanas gauname nulį: Σ ri = Σ (xi − x̄) = 0. Iš to seka praktiniai padariniai (pvz., kodėl imties variacijos skaičiavime naudojama n−1 laisvės laipsnių korekcija).
- Dėl Σ ri = 0 liekanos nėra nepriklausomos — žinodami dalį liekanų, gauname informaciją apie likusias, nes jų suma turi būti nulė.
- Statistinės paklaidos ei = xi − μ, jeigu individai renkami nepriklausomai, yra nepriklausomi atsitiktiniai kintamieji. Jų suma neturi būti lygi nuliui (tai tik atsitiktinai gali įvykti).
- Populiacijos dispersija apibrėžiama kaip σ² = E[(X − μ)²]. Imties dispersijai naudojamas nešališkas įvertis s² = (1/(n−1)) Σ (xi − x̄)² — čia n−1 atsiranda dėl to, kad x̄ yra įvertintas iš tų pačių duomenų.
- Regresijos kontekste liekanos (yi − ŷi) turi papildomų savybių: jei modelyje yra konstantos (intercept) terminas, residuų suma taip pat lygi nuliui; laipsnis laisvės (degrees of freedom) liekanoms yra n − p, kur p — parametrų skaičius.
Praktiniai pastebėjimai ir diagnostika
Liekanos plačiai naudojamos modelių patikros ir diagnostikos tikslais. Įprastinės procedūros:
- Rezidualų diagramos (residuals vs fitted) padeda atpažinti netinkamą modelio formą arba heteroskedastiškumą (kintančią dispersiją).
- QQ-diagramos arba normalumo testai padeda patikrinti, ar liekanos artimos normaliajam pasiskirstymui (dažna prielaida daugelyje metodų).
- Stebimos didelės liekanos gali reikšti išimtinius taškus (outliers) arba modelio praleidimus; didelis leveridžas (leverage) kartu su didelėmis liekanomis rodo ypač įtakingus stebėjimus.
- Rezidualų analizė leidžia įvertinti modelio tinkamumą, leidžia aptikti struktūrinius modelio defektus (trūkstamus kintamuosius, netinkamą funkcijų formą ir pan.).
Keli papildomi paaiškinimai
- Terminas „statistinė paklaida“ dažnai vartojamas bendrai apibūdinti skirtumui nuo nežinomos tikrosios vertės (tai tikrasis atsitiktinis procesas), o „liekana“ — tai praktinis skirtumas, kurį mes gauname po to, kai parametrą įvertiname iš duomenų.
- Atsitiktinių klaidų nepriklausomumo sąlyga dažnai priklauso nuo imties sudarymo: jei individai atrenkami nepriklausomai iš populiacijos, klaidos būna nepriklausomos; tačiau, pavyzdžiui, klasterinėse atrankose klaidos tarp to paties klasterio narių gali būti koreliuotos.
- Modelių vertinime svarbu skirti, ką lyginame su „tiksliąja“ verte — ar kalbame apie populiacijos parametrą (μ), ar apie modelio prognozę (ŷ). Tai lemia, ar skirtumas vadinsis klaida, ar liekana.
Santrauka
Apibendrinant, statistinė paklaida yra skirtumas tarp stebimos reikšmės ir tikrosios (nepastebimos) populiacijos vertės, o liekana — skirtumas tarp stebimos reikšmės ir to, ką mes prognozuojame arba įvertiname iš duomenų (pvz., imties vidurkio arba modelio prognozės). Liekana turi ypatingą aritmetinę savybę — jos suma lygi nuliui — todėl liekanos nėra nepriklausomos. Šios skirtumų rūšys yra kertinės statistikos ir regresijos analizės sąvokos, svarbios tiek teoriniams įvertinimams, tiek praktinei diagnostikai ir sprendimų priėmimui.