Patikimumo intervalas: apibrėžimas, skaičiavimas ir interpretacija
Sužinokite patikimumo intervalo apibrėžimą, skaičiavimo žingsnius ir interpretaciją — aiškiai, su pavyzdžiais ir 95 % lygio paaiškinimu.
Statistikoje pasikliautinasis intervalas (dažnai vadinamas patikimumo intervalu) yra būdas pateikti ne vieną taškinį parametro įvertį, o intervalą galimų parametro verčių kartu su tikimybe, kad tikroji (nežinoma) parametro vertė pateks į šį intervalą. Intervalas gaunamas iš imties duomenų, todėl skirtingose imtyse jis kinta. Tikimybė, kad intervalo sudarymo procedūra duotu patikimumo lygiu užtikrina, jog intervalas apims tikrąją parametro vertę, vadinama patikimumo lygiu (dažniausiai nurodoma procentais, pvz., 95 %). Intervalo galiniai taškai vadinami pasikliautinumo ribomis. Kuo aukštesnis patikimumo lygis, tuo platesnis intervalas, jeigu ta pati įvertinimo procedūra ir imties dydis lieka nepakitę.
Apskaičiuojant pasikliautinį intervalą paprastai daromos prielaidos apie duomenų generavimo procesą — tai vadinamieji parametriniai metodai. Viena įprastų prielaidų yra, kad populiacijos, iš kurios paimta imtis, pasiskirstymas yra normalus. Tačiau daugeliu atvejų yra ir kitų galimybių (pvz., intervalai proporcijoms, t-intervalai, arba neparametrinės ir resampling metodikos), kurios leidžia gauti patikimus rezultatus ir be griežtos normalumo prielaidos.
Ką reiškia „95 %“ patikimumo lygis?
Teisingas šio reiškinio interpretavimas: jeigu daug kartų pakartotume tą pačią imties rinkimo ir intervalo konstravimo procedūrą, apie 95 % gautų intervalų apimtų tikrąją parametro vertę. Tai nereiškia, kad tikimybė, jog tam tikras konkretaus imties intervalas apima parametrą yra 95 % — parametrą laikome fiksuotu, o atsitiktinis yra intervalas.
Dažniausiai naudojamos formulės
Dažniausi atvejai — intervalo apskaičiavimas populiacijos vidurkiui arba proporcijai.
- Vidurkis, kai žinomas populiacijos standartinis nuokrypis σ:
x̄ ± zα/2 · σ / √n
čia x̄ — imties vidurkis, zα/2 — standartinės normalios kvantilis (pvz., ≈1.96 95 % lygiui), n — imties dydis. - Vidurkis, kai σ nežinomas (mažesnėms imtims):
x̄ ± tn−1,α/2 · s / √n
čia s — imties standartinis nuokrypis, tn−1,α/2 — Studento t pasiskirstymo kvantilis su n−1 laisvės laipsniais. - Proporcija (pvz., dalis sėkmių):
p̂ ± zα/2 · √[ p̂(1−p̂) / n ]
čia p̂ — imties proporcija.
Pavyzdžiai
1) Vidurkio pavyzdys (σ žinomas): x̄ = 100, σ = 15, n = 25, 95 % lygis.
Margin of error = 1.96 · 15 / √25 = 1.96 · 3 = 5.88.
95 % CI = 100 ± 5.88 = (94.12, 105.88).
2) Proporcijos pavyzdys: p̂ = 0.60, n = 200, 95 % lygis.
SE = √[0.6·0.4/200] ≈ 0.03464, margin = 1.96·0.03464 ≈ 0.0679.
95 % CI ≈ (0.532, 0.668).
Kaip apskaičiuoti žingsnis po žingsnio
- Nustatyti parametrą, kurį vertinate (vidurkis, proporcija ir t. t.).
- Išsirinkti patikimumo lygį (pvz., 90 %, 95 %, 99 %) ir rasti atitinkamą kvantilį (z arba t).
- Apskaičiuoti imties įvertį (x̄ arba p̂) ir standartinę klaidą SE.
- Apskaičiuoti ribas: įvertis ± kvantilis × SE.
- Patikrinti prielaidas (normalumas, nepriklausomybė, pakankamas imties dydis) arba naudoti alternatyvias metodikas, jei prielaidos laužomos.
Prielajos ir alternatyvos
Daugelis standartinių intervalų remiasi prielaidomis: imčių nepriklausomumas, pakankamai didelis n (centrinė ribinė teorema) arba normalumas. Jei šios prielaidos nėra tenkinamos, galima naudoti:
- Studento t-intervalą mažoms imtims, kai σ nežinomas.
- Wilson arba Agresti–Coull intervalus proporcijoms, ypač mažiems n arba p̂ artimam 0 arba 1.
- Neparametrinius metodus ir resampling (pvz., bootstrap) — jie dažnai gerai veikia be griežtų prielaidų apie pasiskirstymą.
- Bayesinius patikimumo atitinkamus intervalus — vadinamus "credible intervals" — kurie turi kitokią interpretaciją (tikimybė dėl parametro, atsižvelgiant į pradinę informaciją).
Kaip keičiasi intervalas
- Aukštesnis patikimumo lygis (pvz., 99 % vietoje 95 %) daro intervalą platesnį.
- Didesnis imties dydis n mažina standartinę klaidą ir susiaurina intervalą (∝ 1/√n).
- Didesnis duomenų dispersijos (standartinis nuokrypis) didina intervalo plotį.
Dažni nesusipratimai ir gairės pranešimui
- Patikimumo intervalas nėra tiesioginė tikimybė, kad tiksliai šis intervalas apima parametrą — tai procedūros savybė daugkartiniame kartojime.
- Visada nurodykite: patikimumo lygį (pvz., 95 %), metodo pavadinimą (pvz., z-intervalas, t-intervalas, bootstrap) ir imties dydį.
- Jei atliekama daug palyginimų, intervalų interpretacija gali pakeisti reikšmingumą (reikalingi koregavimai dėl kelių palyginimų).
Ryšys su hipotezių testavimu
Patikimumo intervalas glaudžiai susijęs su hipotezių testavimu: jei nulinei hipotezei H0 apie parametrą reikšmė yra už 95 % CI ribų, tada H0 būtų atmetama 5 % reikšmingumo lygiu (prielaidoms esant tenkinamoms). Tačiau visada svarbu nagrinėti prielaidas ir metodikos tinkamumą.
Išvados ir praktiniai patarimai
Patikimumo intervalai suteikia daugiau informacijos nei vien taškinis įvertis, nes parodo įvertinimo neapibrėžtumą. Tinkamai interpretuojant ir nurodant prielaidas, jie yra labai naudingi priimant sprendimus ir skelbiant rezultatus. Kai prielaidos abejojamos, rekomenduojama naudoti robustesnes ar neparametrines alternativas (pvz., bootstrap) ir aiškiai nurodyti naudojamą metodą.
Termino "pasitikėjimas" reikšmė
Statistikoje sąvoka "patikimumas" turi panašią reikšmę kaip ir bendrinėje kalboje. Bendrinėje kalboje teiginys, kad kažko patikimumas yra 95 %, paprastai laikomas reiškiančiu faktinį tikrumą. Statistikoje teiginys apie 95 % patikimumą paprasčiausiai reiškia, kad tyrėjas pamatė vieną galimą intervalą iš daugelio galimų, iš kurių devyniolikoje iš dvidešimties intervalų yra tikroji parametro vertė.
Praktinis pavyzdys

Mašina pripildo puodelius margarinu. Šiame pavyzdyje mašina sureguliuota taip, kad puodeliuose būtų 250 g margarino. Kadangi mašina negali užpildyti kiekvieno puodelio tiksliai 250 g, į atskirus puodelius įdedamas turinys šiek tiek skiriasi ir yra laikomas atsitiktiniu kintamuoju X. Daroma prielaida, kad šis skirtumas yra normaliai pasiskirstęs aplink norimą 250 g vidurkį, o standartinis nuokrypis yra 2,5 g. Norint nustatyti, ar mašina tinkamai sukalibruota, atsitiktine tvarka pasirenkama n = 25 puodelių margarino imtis ir puodeliai pasveriami. Margarino svoriai yra X1, ..., X25, atsitiktinė imtis iš X.
Norint susidaryti įspūdį apie lūkesčius μ, pakanka pateikti įvertį. Tinkamas įvertis yra imties vidurkis:
μ ^ = X ¯ = 1 n ∑ i = 1 n X i . {\displaystyle {\hat {\mu }}}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}. }
Imtyje pateikiami faktiniai svoriai x1, ...,x25 su vidurkiu:
x¯ = 1 25 ∑ i = 1 25 x i = 250,2 g . {\displaystyle {\bar {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250,2\,{\text{gramai}}. }
Jei paimtume kitą 25 puodelių mėginį, nesunkiai rastume 250,4 arba 251,1 gramo. Tačiau vidutinė imties vertė 280 g būtų labai reta, jei vidutinis puodelių kiekis iš tikrųjų yra artimas 250 g. Aplink stebėtą imties vidurkio vertę 250,2 yra visas intervalas, kuriame, jei visos populiacijos vidurkis iš tikrųjų būtų šios vertės, stebimi duomenys nebūtų laikomi itin neįprastais. Toks intervalas vadinamas parametro μ pasikliautinuoju intervalu. Kaip apskaičiuoti tokį intervalą? Intervalo galiniai taškai turi būti apskaičiuoti pagal imtį, todėl jie yra statistiniai duomenys, imties X1, ..., X25 funkcijos, taigi patys yra atsitiktiniai kintamieji.
Mūsų atveju galinius taškus galime nustatyti laikydami, kad normaliai pasiskirsčiusios imties vidurkis X taip pat yra normaliai pasiskirstęs, su ta pačia tikimybe μ, bet su standartine paklaida σ/√n = 0,5 (gramai). Standartizavę gauname atsitiktinį kintamąjį
Z = X¯ - μ σ / n = X¯ - μ 0,5 {\displaystyle Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0,5}}}}
priklauso nuo įvertintino parametro μ, bet turi standartinį normalųjį skirstinį, nepriklausantį nuo parametro μ. Taigi galima rasti nuo μ nepriklausomus skaičius -z ir z, kur Z yra tarp jų su tikimybe 1 - α, t. y. matas, rodantis, kiek norime būti tikri. Imame 1 - α = 0,95. Taigi turime:
P ( - z ≤ Z ≤ z ) = 1 - α = 0,95. {\displaystyle P(-z\leq Z\leq z)=1-\alfa =0,95.\,}
Skaičius z išplaukia iš kumuliatyviosios pasiskirstymo funkcijos:
Φ ( z ) = P ( Z ≤ z ) = 1 - α 2 = 0,975 , z = Φ - 1 ( Φ ( z ) ) = Φ - 1 ( 0,975 ) = 1.96 , {\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0,975,\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0,975)=1,96,\end{aligned}}}}}
ir gauname:
0,95 = 1 - α = P ( - z ≤ Z ≤ z ) = P ( - 1,96 ≤ X¯ - μ σ / n ≤ 1,96 ) = P ( X¯ - 1,96 σ n ≤ μ ≤ X¯ + 1.96 σ n ) = P ( X¯ - 1,96 × 0,5 ≤ μ ≤ X¯ + 1,96 × 0,5 ) = P ( X¯ - 0,98 ≤ μ ≤ X¯ + 0,98 ) . {\displaystyle {\begin{aligned}0,95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1,96\leq {\frac {{\bar {X}}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\[6pt]&=P\left({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}}}\dešinėje pusėje)\\[6pt]&=P\left({\bar {X}}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\times 0,5\right)\\[6pt]&=P\left({\bar {X}}-0,98\leq \mu \leq {\bar {X}}+0,98\right).\end{aligned}}}
Tai galima interpretuoti taip: su tikimybe 0,95 rasime pasikliautinąjį intervalą, kuriame tarp stochastinių galutinių taškų bus parametras μ
X - 0 . 98 {\displaystyle {\bar {X}}-0{.}98\,}
ir
X ¯ + 0.98. {\displaystyle {\bar {X}}+0,98.\,}
Tai nereiškia, kad yra 0,95 tikimybė, jog parametras μ pateks į apskaičiuotą intervalą. Kiekvieną kartą pakartojus matavimus, bus gaunama kita imties vidurkio X reikšmė. 95 % atvejų μ bus tarp galutinių taškų, apskaičiuotų pagal šį vidurkį, tačiau 5 % atvejų jo nebus. Faktinis pasikliautinasis intervalas apskaičiuojamas į formulę įrašant išmatuotus svorius. Mūsų 0,95 pasikliautinasis intervalas tampa:
( x - 0,98 ; x - + 0,98 ) = ( 250,2 - 0,98 ; 250,2 + 0,98 ) = ( 249,22 ; 251,18 ) . {\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,}
Kadangi pageidaujama μ reikšmė 250 neviršija nustatyto pasikliautinojo intervalo, nėra pagrindo manyti, kad mašina sukalibruota neteisingai.
Apskaičiuotas intervalas turi fiksuotus galinius taškus, tarp kurių gali būti μ (arba ne). Taigi šio įvykio tikimybė yra 0 arba 1. Mes negalime pasakyti: "su tikimybe (1 - α) parametras μ yra pasikliautinajame intervale". Mes tik žinome, kad kartojant 100(1 - α) % atvejų μ bus apskaičiuotame intervale. Tačiau 100α % atvejų taip nėra. Ir, deja, nežinome, kuriais atvejais taip atsitinka. Todėl ir sakome: "Su 100(1 - α) % patikimumo lygiu μ yra pasikliautinajame intervale. "
Dešinėje pusėje esančiame paveikslėlyje pavaizduota 50 pasikliautinojo intervalo realizacijų tam tikram populiacijos vidurkiui μ. Jei atsitiktinai pasirinksime vieną realizaciją, tikimybė, kad galiausiai pasirinksime intervalą, kuriame yra parametras, yra 95 %; tačiau gali būti, kad mums nepasisekė ir pasirinkome ne tą intervalą. To niekada nesužinosime; mes esame įstrigę su savo intervalu.

Vertikalios linijos atkarpos rodo 50 μ pasikliautinojo intervalo realizacijų.
Klausimai ir atsakymai
K: Kas statistikoje yra pasikliautinasis intervalas?
A: Patikimumo intervalas yra specialus intervalas, naudojamas parametrui, pavyzdžiui, populiacijos vidurkiui, įvertinti, nurodant ne vieną, o priimtinų parametro reikšmių intervalą.
K: Kodėl vietoj vienos vertės naudojamas pasikliautinasis intervalas?
A: Patikimumo intervalas naudojamas vietoj vienos vertės, kad būtų atsižvelgta į parametro įvertinimo pagal imtį neapibrėžtumą ir kad būtų galima nustatyti tikimybę, jog tikroji parametro vertė yra intervale.
K: Kas yra pasikliautinasis lygis?
Atsakymas: Patikimumo lygmuo yra tikimybė, kad vertinamas parametras patenka į pasikliautinąjį intervalą, ir dažnai nurodomas procentais (pvz., 95 % pasikliautinasis intervalas).
K: Kas yra pasikliautinosios ribos?
A. Pasitikėjimo ribos yra pasikliautinojo intervalo galiniai taškai, apibrėžiantys vertinamo parametro priimtinų verčių intervalą.
K: Kaip pasikliovimo lygis veikia pasikliautinąjį intervalą?
A: Kuo aukštesnis patikimumo lygis, tuo platesnis bus patikimumo intervalas.
K: Kokios prielaidos reikalingos patikimumo intervalui apskaičiuoti?
A: Apskaičiuojant pasikliautinąjį intervalą paprastai reikia daryti prielaidas apie vertinimo proceso pobūdį, pavyzdžiui, prielaidą, kad populiacijos, iš kurios sudaryta imtis, pasiskirstymas yra normalus.
K: Ar pasikliautinieji intervalai yra patikima statistika?
A.: Patikimumo intervalai, kaip aptarta toliau, nėra patikima statistika, nors galima atlikti patikslinimus, kad padidėtų patikimumas.
Ieškoti