Atsitiktinė paklaida: apibrėžimas, liekanos ir pavyzdžiai
Statistinės paklaidos ir liekanos atsiranda, nes matavimas niekada nebūna tikslus. Tiksliai išmatuoti neįmanoma, tačiau galima įvertinti, kiek tikslus yra matavimas, ir aprašyti klaidų savybes taikant statistiką.
Apibrėžimai
Klaidos ir liekanos reiškia skirtumą tarp stebėtos arba išmatuotos vertės ir tikrosios (bet paprastai nežinomos) vertės. Jeigu yra tik vienas atsitiktinis kintamasis, galima atskirti dvi pagrindines sąvokas:
- Statistinė (populiacijos) paklaida — skirtumas tarp individo stebimos reikšmės xi ir tikrosios populiacijos vidurkio μ: ei = xi − μ. Tai yra atsitiktinis dydis, priklausantis nuo to, kurio individo matavimas yra svarstomas.
- Liekana (residualas) — skirtumas tarp individo stebimos reikšmės xi ir imties vidurkio x̄ (arba modelio prognozės ŷ): ri = xi − x̄ (arba ri = yi − ŷi regresijoje). Liekana yra „statistinės paklaidos įvertis“ — ji priklauso nuo to, kaip mes įvertiname populiacijos parametrą.
Paprastas pavyzdys: atliekamas eksperimentas, kuriuo siekiama išmatuoti tam tikroje vietovėje gyvenančių 21 metų vyrų ūgį. Jei populiacijos vidurkis (μ) yra 1,75 m:
- Jei vieno atsitiktinai pasirinkto vyro ūgis xi = 1,80 m, tada statistinė paklaida ei = 1,80 − 1,75 = 0,05 m (5 cm).
- Jei kito vyro ūgis xi = 1,70 m, ei = −0,05 m (−5 cm).
Jeigu imame n vyrų ir apskaičiuojame imties vidurkį x̄ kaip populiacijos vidurkio įvertį, tuomet kiekvieno stebėjimo liekana yra ri = xi − x̄. Tokiu būdu:
- Skirtumas tarp kiekvieno imties vyro ūgio ir nepastebimo populiacijos vidurkio yra statistinė paklaida.
- Skirtumas tarp kiekvieno imties vyro ūgio ir stebimo imties vidurkio yra liekana.
Savybės ir matematinės pasekmės
- Sumuojant liekanas gauname nulį: Σ ri = Σ (xi − x̄) = 0. Iš to seka praktiniai padariniai (pvz., kodėl imties variacijos skaičiavime naudojama n−1 laisvės laipsnių korekcija).
- Dėl Σ ri = 0 liekanos nėra nepriklausomos — žinodami dalį liekanų, gauname informaciją apie likusias, nes jų suma turi būti nulė.
- Statistinės paklaidos ei = xi − μ, jeigu individai renkami nepriklausomai, yra nepriklausomi atsitiktiniai kintamieji. Jų suma neturi būti lygi nuliui (tai tik atsitiktinai gali įvykti).
- Populiacijos dispersija apibrėžiama kaip σ² = E[(X − μ)²]. Imties dispersijai naudojamas nešališkas įvertis s² = (1/(n−1)) Σ (xi − x̄)² — čia n−1 atsiranda dėl to, kad x̄ yra įvertintas iš tų pačių duomenų.
- Regresijos kontekste liekanos (yi − ŷi) turi papildomų savybių: jei modelyje yra konstantos (intercept) terminas, residuų suma taip pat lygi nuliui; laipsnis laisvės (degrees of freedom) liekanoms yra n − p, kur p — parametrų skaičius.
Praktiniai pastebėjimai ir diagnostika
Liekanos plačiai naudojamos modelių patikros ir diagnostikos tikslais. Įprastinės procedūros:
- Rezidualų diagramos (residuals vs fitted) padeda atpažinti netinkamą modelio formą arba heteroskedastiškumą (kintančią dispersiją).
- QQ-diagramos arba normalumo testai padeda patikrinti, ar liekanos artimos normaliajam pasiskirstymui (dažna prielaida daugelyje metodų).
- Stebimos didelės liekanos gali reikšti išimtinius taškus (outliers) arba modelio praleidimus; didelis leveridžas (leverage) kartu su didelėmis liekanomis rodo ypač įtakingus stebėjimus.
- Rezidualų analizė leidžia įvertinti modelio tinkamumą, leidžia aptikti struktūrinius modelio defektus (trūkstamus kintamuosius, netinkamą funkcijų formą ir pan.).
Keli papildomi paaiškinimai
- Terminas „statistinė paklaida“ dažnai vartojamas bendrai apibūdinti skirtumui nuo nežinomos tikrosios vertės (tai tikrasis atsitiktinis procesas), o „liekana“ — tai praktinis skirtumas, kurį mes gauname po to, kai parametrą įvertiname iš duomenų.
- Atsitiktinių klaidų nepriklausomumo sąlyga dažnai priklauso nuo imties sudarymo: jei individai atrenkami nepriklausomai iš populiacijos, klaidos būna nepriklausomos; tačiau, pavyzdžiui, klasterinėse atrankose klaidos tarp to paties klasterio narių gali būti koreliuotos.
- Modelių vertinime svarbu skirti, ką lyginame su „tiksliąja“ verte — ar kalbame apie populiacijos parametrą (μ), ar apie modelio prognozę (ŷ). Tai lemia, ar skirtumas vadinsis klaida, ar liekana.
Santrauka
Apibendrinant, statistinė paklaida yra skirtumas tarp stebimos reikšmės ir tikrosios (nepastebimos) populiacijos vertės, o liekana — skirtumas tarp stebimos reikšmės ir to, ką mes prognozuojame arba įvertiname iš duomenų (pvz., imties vidurkio arba modelio prognozės). Liekana turi ypatingą aritmetinę savybę — jos suma lygi nuliui — todėl liekanos nėra nepriklausomos. Šios skirtumų rūšys yra kertinės statistikos ir regresijos analizės sąvokos, svarbios tiek teoriniams įvertinimams, tiek praktinei diagnostikai ir sprendimų priėmimui.
Susiję puslapiai
Klausimai ir atsakymai
Klausimas: Ką reiškia statistinės paklaidos ir liekanos?
A: Statistinės paklaidos ir liekanos reiškia skirtumą tarp stebėtos arba išmatuotos vertės ir tikrosios vertės, kuri yra nežinoma.
K: Kaip galima išmatuoti matavimo tikslumą?
A: Galima matuoti tą patį dalyką vėl ir vėl ir surinkti visus duomenis kartu. Tai leidžia atlikti duomenų statistiką ir nustatyti, kiek tikslus yra matavimas.
K: Koks yra statistinės paklaidos pavyzdys?
Atsakymas: Statistinės paklaidos pavyzdys būtų toks: jei buvo atliktas eksperimentas, kurio metu buvo matuojamas tam tikros vietovės 21 metų vyrų ūgis, o tikėtinas vidurkis buvo 1,75 m, tačiau vieno atsitiktinai pasirinkto vyro ūgis buvo 1,80 m; tuomet "(statistinė) paklaida" būtų 0,05 m (5 cm).
Klausimas: Koks yra liekanos pavyzdys?
Atsakymas: Likutinės paklaidos pavyzdys būtų toks: jei buvo atliktas eksperimentas, kurio metu buvo matuojamas 21 metų amžiaus vyrų ūgis tam tikroje vietovėje, o tikėtinas vidurkis buvo 1,75 m, tačiau vieno atsitiktinai pasirinkto vyro ūgis buvo 1,70 m; tuomet likutinė (arba tinkamumo) paklaida būtų -0,05 m (-5 cm).
Klausimas: Ar liekanos yra nepriklausomi kintamieji?
Atsakymas: Ne, atsitiktinės imties liekanų suma turi būti lygi nuliui, todėl jos nėra nepriklausomi kintamieji.
K: Ar statistinės paklaidos yra nepriklausomi kintamieji?
A: Taip, statistinių paklaidų suma atsitiktinėje imtyje neturi būti lygi nuliui, todėl jos yra nepriklausomi atsitiktiniai kintamieji, jei individai iš populiacijos atrenkami nepriklausomai.
K: Ar įmanoma atlikti tikslius matavimus?
Atsakymas: Ne, tikslių matavimų atlikti neįmanoma, nes matavimas niekada nebūna tikslus.