Hipotezių testavimas statistikoje: p-vertė, nulinė hipotezė ir pavyzdžiai

Hipotezių testavimas statistikoje: aiškiai paaiškintos p-vertė, nulinė hipotezė ir praktiniai pavyzdžiai — suprantamas vadovas studentams ir tyrėjams.

Autorius: Leandro Alegsa

Statistinių hipotezių tikrinimas yra statistikoje naudojamas metodas. Jis padeda apibūdinti eksperimento metu gautus rezultatus. Hipotezės testas parodo tikimybę, kad tam tikras rezultatas būtų atsitiktinis.

Statistiniai hipotezių testai atsako į klausimą: Darant prielaidą, kad nulinė hipotezė yra teisinga, kokia yra tikimybė gauti reikšmę, kuri yra bent jau tokia pat ekstremali, kaip ir faktiškai stebėta reikšmė?

Pavyzdžiui, jei rezultatas atsitiktinai pasitvirtintų tik 5 % atvejų, tuomet eksperimentinė hipotezė patvirtinama 95 % lygmeniu.

Kas yra nulinė ir alternatyvinė hipotezė?

Nulinė hipotezė (H0) paprastai teigia, kad pastebėtas efektas neegzistuoja arba skirtumas tarp dviejų imčių lygus nuliui (pvz., naujo vaisto poveikis lygus placebui). Alternatyvinė hipotezė (H1 arba Ha) teigia, kad efektas egzistuoja (pvz., vaistas turi poveikį). Testuojant hipotezes, mes darome prielaidą, kad H0 yra teisinga, ir skaičiuojame, kiek tikėtina būtų stebėti gautus duomenis, jeigu ta prielaida išties būtų teisinga.

Ką reiškia p-vertė?

p-vertė — tai tikimybė, kad, prielaidų laikantis (ypač H0 teisinga), atsitiktinai gautume stebimą reikšmę arba dar labiau „ekstremalią“ reikšmę. Maža p-vertė reiškia, kad tokie duomenys yra netikėtini pagal H0, todėl H0 galime atmesti. Svarbu: p-vertė nėra tikimybė, kad H0 yra teisinga arba neteisinga — ji vertina duomenų suderinamumą su H0.

Reikšmės lygmuo (α) ir sprendimo taisyklė

  • Signifikacijos lygmuo (α) — iš anksto nustatyta riba (pvz., 0,05), pagal kurią sprendžiame: jeigu p-vertė ≤ α, atmetame H0; jeigu p-vertė > α, H0 neatsmetame.
  • α reiškia leistiną klaidos I tipo tikimybę — tikimybę neteisingai atmesti teisingą H0.

Klaidų tipai

  • Klaida I tipo (α): atmetame H0, nors ji teisinga.
  • Klaida II tipo (β): neatimame H0, nors iš tikrųjų yra alternatyva (H1 teisinga).
  • Testo galios (1−β) didinimas reikalauja didesnės imties, didesnio poveikio dydžio arba mažesnio duomenų variabilumo.

Hipotezių testo žingsniai

  • Nustatyti H0 ir H1.
  • Pasirinkti tinkamą statistinį testą (pvz., t-test, z-test, χ² testas, ANOVA) pagal duomenų pobūdį ir prielaidas.
  • Nustatyti reikšmės lygmenį α.
  • Apskaičiuoti testinę statistiką ir p-vertę.
  • Priimti sprendimą: atmesti arba neatmesti H0.
  • Interpretacija ir pranešimas apie rezultatą (įtraukti efektų dydžius ir pasitikėjimo intervalus).

Vienpusis ir dvišalis testas

Testai gali būti vienpusiai (tikrinama, ar parametras yra didesnis arba mažesnis už nulinį teiginį) arba dvišaliai (tikrinama, ar parametras skiriasi į bet kurią pusę). Dvišalis testas vertina ekstrema abi puses ir dažnai yra konservatyvesnis.

Pavyzdys: moneta ir galvų dažnis

Tarkime, mes meteime monetą 100 kartų ir gauname 60 kartų „galvą“. H0: moneta sąžininga, t. y. p = 0,5. Tikimybė gauti 60 arba daugiau galvų (vienpusė) pagal binominį pasiskirstymą arba artinant normaliai yra maždaug 0,0228; dvišalis p ≈ 0,0456. Jei mūsų α = 0,05, dvišalis testas duoda p ≈ 0,0456 ≤ 0,05, todėl galime atmesti H0 ir daryti prielaidą, kad moneta gali būti nesąžininga (arba atsitiko retas atsitikimas).

Praktiniai pastebėjimai

  • p-vertė priklauso nuo imties dydžio: didelė imtis gali parodyti „statistiškai reikšmingus“, bet praktiškai nereikšmingus skirtumus.
  • Visada pateikite efektų dydžius ir pasitikėjimo intervalus — jie duoda daugiau informacijos nei vien tik p-vertė.
  • Įsitikinkite, kad testo prielaidos yra tenkinamos (pvz., normalumas, nepriklausomybė, vienodas dispersija). Jei prielaidos pažeistos, naudokite netiesioginius arba nepriklausomus testus.
  • Venkite „p-hackinimo“ (daugybės testų be korekcijos) ir antrinėje analizėje interpretuokite rezultatus atsargiai.

Dažniausiai naudojami testai

  • t-testas — skirtas palyginti vidurkius (vienai imčiai, dviejų nepriklausomų imčių ar susijusių porų).
  • z-testas — panašus į t-testą, naudojamas su didelėmis imtimis arba žinomu populiacijos standartiniu nuokrypiu.
  • χ² (chi kvadratas) — kategorinių duomenų nepriklausomumo arba gero priderinimo testams.
  • ANOVA — kelių grupių vidurkių palyginimui.

Apibendrinant: hipotezių testavimas suteikia struktūruotą būdą spręsti, ar stebimas efektas greičiausiai yra atsitiktinis ar atspindi tikrą skirtumą. Tačiau teisinga interpretacija reikalauja supratimo apie p-vertę, reikšmės lygmenį, klaidų tipus, imties dydžio įtaką ir papildomų rodiklių (efektų dydis, pasitikėjimo intervalai).



Ieškoti
AlegsaOnline.com - 2020 / 2025 - License CC3