Imtis (statistika): apibrėžimas, metodai, rūšys ir šališkumas
Statistikoje: sužinokite, kas yra imtis — apibrėžimas, atrankos metodai, imčių rūšys ir šališkumo vertinimo bei mažinimo būdai.
Statistikoje imtis yra populiacijos dalis. Imtis kruopščiai atrenkama. Ji turėtų teisingai atspindėti visą populiaciją be šališkumo. Imtys reikalingos todėl, kad populiacijos gali būti tokios didelės, kad visų individų suskaičiuoti gali būti neįmanoma arba netikslinga.
Todėl statistikos problemos sprendimas paprastai prasideda nuo imties sudarymo. Imtis - tai pasirinkimas, kokius duomenis imti vėlesnei analizei. Tarkime, kad tyrimui reikia išanalizuoti ežero užterštumą. Priklausomai nuo to, iš kur buvo paimti vandens mėginiai, tyrimų rezultatai gali būti skirtingi. Paprastai mėginiai turi būti atsitiktiniai. Tai reiškia, kad tikimybė arba tikimybė atrinkti vieną individą yra tokia pati, kaip ir tikimybė atrinkti bet kurį kitą individą.
Praktikoje atsitiktinės imtys visada sudaromos pagal tiksliai apibrėžtą procedūrą. Procedūra - tai taisyklių rinkinys, veiksmų seka, užrašyta popieriuje ir tiksliai vykdoma. Net ir tokiu atveju imtyje gali išlikti tam tikras šališkumas. Panagrinėkime imties sudarymo problemą, kai norima numatyti rinkimų apklausos rezultatus. Visi žinomi metodai turi problemų, o rinkimų rezultatai dažnai skiriasi nuo imtimi pagrįstų prognozių. Jei nuomonės renkamos naudojant telefonus arba susitinkant su žmonėmis gatvėje, imtis visada turi šališkumo. Todėl tokiais atvejais visiškai neutrali imtis niekada neįmanoma. Tokiais atvejais statistikas galvoja, kaip išmatuoti šališkumo dydį, ir yra būdų, kaip jį įvertinti.
Panaši situacija susiklosto, kai mokslininkai matuoja fizikines savybes, pavyzdžiui, metalo gabalo svorį arba šviesos greitį. Jei objektą sveriame jautria įranga, gausime nežymiai skirtingus rezultatus. Jokia matavimo sistema niekada nėra tobula. Gauname keletą įverčių, kurių kiekvienas yra matavimas. Tai pavyzdžiai su tam tikra paklaida. Statistika skirta klaidoms aprašyti ir tokių duomenų analizei atlikti.
Yra įvairių rūšių pavyzdžių:
Imčių rūšys ir metodai
- Paprastoji atsitiktinė imtis – kiekvienas populiacijos narys turi vienodą tikimybę patekti į imtį. Paprastai imama naudojant atsitiktinių skaičių generatorių arba loterijos principą.
- Sluoksniuota imtis – populiacija suskirstoma į sluoksnius (pvz., amžiaus grupes, regionus) ir iš kiekvieno sluoksnio imama atsitiktinė imtis. Tai sumažina dispersiją, jei sluoksniai yra tarpusavyje skirtingi.
- Klasterinė (grupinė) imtis – populiacija skirstoma į klasterius (pvz., mokyklos, namų kvartalai), atsitiktinai atrenkami klasteriai, o vėliau iš jų imami elementai. Naudinga, kai tiesioginis populiacijos sąrašas sunkiai prieinamas.
- Sisteminė imtis – pirmasis elementas parenkamas atsitiktinai, o likę pasirenkami kas n-tą elementą pagal nustatytą intervalą. Paprasta vykdyti, bet gali būti probleminių periodiškumų atveju.
- Peruša arba daugiapakopė imtis – derinamos kelios imčių technikos (pvz., klasterinė + sluoksniuota) didesniems ar sudėtingesniems tyrimams.
- Neatsitiktinės imtys (pvz., patogumo, ekspertų atranka, savanoriška registracija) – paprastesnės ir pigesnės, bet dažnai turi didelį šališkumą ir jų rezultatus sunku apibendrinti į visą populiaciją.
Imties klaidos ir šališkumas
Reikia skirti dvi pagrindines klaidų grupes:
- Imties (sampling) klaidos – atsirandančios dėl to, kad apžvelgiama tik populiacijos dalis. Jos sumažinamos didinant imties dydį arba taikant geresnę imties schemą (pvz., sluoksniavimas).
- Nesampling (nenaudojimo) klaidos – apima matavimo klaidas, neteisingus atsakymus, šališkumą dėl neatsakymo, netinkamą imties sudarymą (pvz., aprėpties trūkumas) ir duomenų apdorojimo klaidas. Šios klaidos dažnai yra reikšmingesnės už pačią imties klaidą ir sunkiau koreguojamos.
Tipiniai šališkumo šaltiniai:
- Selekcijos šališkumas – tam tikri populiacijos nariai turi mažesnę ar didesnę galimybę patekti į imtį (pvz., apklausa telefonu nedažnai pasieks jaunus žmones be nuosavo telefono).
- Neatsakymo šališkumas – jei neatlieka dalis pakviestų respondentų ir jų atsakymai skiriasi nuo atsakiusiųjų.
- Atsakymo šališkumas – respondentai neteisingai atsako dėl socialinio pageidautinumo, priminimo klaidų ar blogai suformuluotų klausimų.
- Aprėpties (undercoverage) – kai imties rėmas neapima visų populiacijos narių.
Kaip matuoti ir mažinti šališkumą
- Sąmoningas imties plano parengimas: aiškus imties rėmas (populiacijos sąrašas), tiksli procedūra ir pilotinis tyrimas.
- Svertavimas ir post-stratifikacija: respondentų svoriai koreguojami pagal žinomą populiacijos struktūrą (pvz., amžių, lytį, regioną), kad imties sudėtis labiau atitiktų populiaciją.
- Imties dydžio didinimas ten, kur įmanoma; sluoksniavimas, kad sumažinti variaciją ir pagerinti tikslumą.
- Duomenų kokybės kontrolė: patikrinimai, trūkumų identifikavimas, imtis dokumentacijos išsaugojimas.
- Imties procedūrų įrašymas – kaip nurodyta anksčiau, aiškus taisyklių rinkinys ir atlyginimas už jo laikymąsi mažina klaidas vykdymo metu.
Imties dydžio nustatymas
Imties dydis priklauso nuo kelių faktorių:
- Pageidaujamo patikimumo lygio (pvz., 95% pasitikėjimo intervalas).
- Leidžiamos paklaidos (margin of error) dydžio.
- Populiacijos variacijos (pavyzdžiui, proporcijos p artumas 0,5 duoda didžiausią dispersiją).
- Naudotos imties schemos – klasterinė imtis dažnai reikalauja didesnių imčių dėl įrodymų tarp klasterių.
- Finansinių ir laiko resursų apribojimai.
Teoriškai naudojami formulėse esantys dydžiai (pvz., standartinė klaida) leidžia suskaičiuoti reikiamą imties dydį. Praktikoje daroma ir jėgos (power) analizė, jei imtį formuojame hipotetiniam testui atlikti.
Imties sudarymo procedūros ir gerosios praktikos
- Sukurti aiškų imties planą: apibrėžti populiaciją, imties rėmą, metodą ir procedūras.
- Naudoti atsitiktinumo šaltinius (atsitiktinių skaičių generatorius, loterijas) ir dokumentuoti visus žingsnius.
- Įtraukti pilotinius testus ir klausimynų peržiūras, kad sumažinti matavimo klaidas.
- Stebėti neatsakymo lygį ir įvertinti galimą jo įtaką rezultatams; taikyti imties svorius ar impute klaidom padengti spragas.
- Atliekant apklausas, žurnalizuoti laiką, vietą ir aplinkybes (pvz., oro sąlygas, įrangos parametrus) – tai svarbu interpretacijai vėliau.
Praktiniai pavyzdžiai
- Ežero užterštumo tyrimas: kaip minėta anksčiau, vieta, gylyje paimti vandens mėginiai ir jų paėmimo būdas daro įtaką rezultatams — svarbu imti atsitiktinius mėginius iš skirtingų ežero dalių, gylių ir sezonų.
- Rinkimų apklausos: telefoninės, gatvės ar internetinės apklausos dažnai skiriasi dėl prieinamumo ir savanoriškumo. Svarbu atsižvelgti į rinkimų dalyvių struktūrą ir taikyti svorius bei korekcijas.
- Fizikinių dydžių matavimai: keli matavimai šviesos greičiui arba metalo gabalo svoriui leis įvertinti matavimo dispersiją ir sistemines nuokrypas; čia vėl reikia aiškios matavimo procedūros ir įrangos kalibracijos.
Santrauka
Imtis yra pagrindinis statistikos darbo įrankis: teisingai parinkta ji leidžia daryti patikimas išvadas apie didesnę populiaciją. Svarbu atskirti atsitiktines ir neatsitiktines imtis, suprasti šaltinius, iš kurių kyla klaidos ir šališkumas, ir pritaikyti priemones jų mažinimui (sluoksniavimas, svoriai, pilotai, dokumentacija). Tinkamai suprojektuota imtis kartu su kokybiška duomenų rinkimo procedūra – raktas į patikimus statistinius rezultatus.

Pasienio policija su specialiai apmokytu šunimi ieško nelegalių narkotikų: Jei jie tikrina kas dešimtą automobilį, jie ima nešališką mėginį.
Stratifikuota atranka
Jei populiacija turi akivaizdžias subpopuliacijas, reikia imti kiekvienos subpopuliacijos mėginius. Tai vadinama stratifikuota atranka. Stratifikuota atranka taip pat vadinama stratifikuota atsitiktine imtimi. Stratifikuota atranka dažnai vaizduojama proporcijomis, pavyzdžiui, procentais (%).
Tarkime, kad eksperimento metu siekiama nustatyti suaugusiųjų pajamas. Akivaizdu, kad koledžų absolventų pajamos gali skirtis nuo neuniversitetinių absolventų pajamų. Dabar įsivaizduokime, kad aukštųjų mokyklų absolventų vyrų skaičius sudaro 30 % visų suaugusių vyrų (įsivaizduojami skaičiai). Tuomet pasirūpintumėte, kad 30 % visos imties sudarytų atsitiktinai atrinkti absolventai vyrai, o 70 % visos imties - ne absolventai vyrai. Pakartokite šį procesą moterims, nes moterų absolventų procentinė dalis skiriasi nuo vyrų. Taip gausime suaugusiųjų gyventojų imtį, suskirstytą pagal lytį ir aukštąjį išsilavinimą. Kitas žingsnis - kiekvieną iš subpopuliacijų suskirstyti pagal amžiaus grupes, nes (pavyzdžiui) viduriniame amžiuje absolventai gali gauti daugiau pajamų, palyginti su nebaigusiaisiais studijų.
Kitas stratifikuotos imties tipas susijęs su variacija. Šiuo atveju iš labiau kintančių subpopuliacijų imamos didesnės imtys, kad apibendrinamoji statistika, pavyzdžiui, vidurkiai ir standartiniai nuokrypiai, būtų patikimesnė.
Klausimai ir atsakymai
K: Kas statistikoje yra imtis?
Atsakymas: Statistikoje imtis yra populiacijos dalis, kuri buvo kruopščiai atrinkta taip, kad teisingai ir be šališkumo atspindėtų visą populiaciją.
K: Kam reikalingos imtys?
A: Imtys reikalingos, nes populiacijos gali būti tokios didelės, kad suskaičiuoti visus individus gali būti neįmanoma arba netikslinga. Todėl statistikos problemos sprendimas paprastai pradedamas nuo imčių sudarymo.
K: Kaip vaizduojama imtis?
A: Imtis, traktuojama kaip duomenų rinkinys, dažnai vaizduojama didžiosiomis raidėmis, pavyzdžiui, X ir Y, jos elementai rašomi mažosiomis raidėmis (pvz., x3), o imties dydis - n raide.
K: Kokios turėtų būti imtys?
A: Paprastai imtys turi būti atsitiktinės, o tai reiškia, kad tikimybė arba tikimybė atrinkti vieną asmenį yra tokia pati, kaip ir tikimybė atrinkti bet kurį kitą asmenį. Praktikoje atsitiktinės imtys visada sudaromos pagal tiksliai apibrėžtą procedūrą.
Klausimas: Ar imtyse gali išlikti šališkumas?
Atsakymas: Net ir taikant gerai apibrėžtas imčių atrankos procedūras imtyje gali išlikti tam tikras šališkumas dėl tokių veiksnių kaip tai, kas atsiliepia į telefono skambučius arba kas vaikšto tam tikromis gatvėmis, kai renkamos nuomonės rinkimų apklausai prognozuoti. Tokiais atvejais gali būti sunku gauti visiškai neutralias imtis, tačiau statistikos specialistai gali įvertinti, kiek šališkumo išlieka.
Klausimas: Ar yra įvairių rūšių imčių?
A: Taip, yra įvairių rūšių imčių, įskaitant pilnąsias imtis, kurios apima visus elementus, turinčius tam tikras savybes, ir nešališkas (reprezentatyviąsias) imtis, kai elementai atrenkami iš pilnutinių imčių, neatsižvelgiant į jų savybes. Imties sudarymo būdas ir jos dydis turi įtakos duomenų vertinimui.
Ieškoti