Statistika: apibrėžimas, metodai ir duomenų analizės taikymai

Atraskite statistiką: apibrėžimas, metodai ir praktiniai duomenų analizės taikymai mokslui, medicinai, ekonomikai ir rinkodarai — aiškiai, suprantamai, taikliai.

Autorius: Leandro Alegsa

25-09-2025 12:41

Statistika yra taikomosios matematikos šaka, susijusi su duomenų rinkimu, tvarkymu, analize, aiškinimu ir pateikimu. Aprašomoji statistika apibendrina duomenis. Išvadinė statistika leidžia daryti prognozes. Statistika padeda tirti daugelį kitų sričių, pavyzdžiui, mokslo, medicinos, ekonomikos, psichologijos, politikos ir rinkodaros. Asmuo, dirbantis statistikos srityje, vadinamas statistiku. Žodis "statistika" ne tik yra mokslo srities pavadinimas, bet ir reiškia skaičius, kurie naudojami duomenims ar ryšiams apibūdinti.

Statistikos uždaviniai ir procesas

Statistikos procesas paprastai apima kelis pagrindinius etapus:

Problemos formuluotė: aiškiai apibrėžti klausimus, kuriems reikalingi atsakymai;
Duomenų rinkimas: pasirinkti tinkamą tyrimo dizainą (eksperimentas, apklausa, stebėjimas) ir surinkti duomenis;
Duomenų paruošimas: valymas, trūkstamų reikšmių tvarkymas, korekcijos;
Aprašomoji analizė: pagrindinių charakteristikų nustatymas, vizualizacijos;
Išvadinė analizė: modelių kūrimas, hipotezių tikrinimas, intervalų vertinimas;
Interpretacija ir pateikimas: aiškios išvados, sprendimų priėmimas ir rezultatų komunikacija.

Duomenų rinkimo ir mėginių ėmimo metodai

Duomenų kokybė lemia analizės patikimumą. Paprasti duomenų rinkimo būdai:

Atsitiktinė (random) ėmimo: kiekvienas populiacijos narys turi žinomą ir (idealiu atveju) lygią tikimybę būti įtrauktam;
Stratifikavimas: populiacija padalinama į grupes (stratas), iš kurių imama atskirai, kad būtų užtikrintas reprezentatyvumas;
Klusteringas: imama grupių (pvz., teisminių regionų), naudingas geografinėms apklausoms;
Savavališkas arba patogumo ėmimas: greitas, bet gali sukelti šališkumą.

Reikšmingi terminai: populiacija (visi galimi stebėjimo objektai) ir mėginys (išrinkta dalis populiacijos). Svarbu atskirti atsitiktinę klaidą (variaciją tarp mėginių) ir sisteminį šališkumą (bias).

Aprašomoji statistika — pagrindinės priemonės

Aprašomoji statistika leidžia glaustai pateikti duomenis:

Centrinės tendencijos matas: aritmetinis vidurkis, mediana, moda;
Sklaidos matas: diapazonas (range), kvadratinė paklaida, variansas, standartinis nuokrypis, interkvartilių intervalas (IQR);
Forma: asimetriškumas (skewness), peakybė (kurtosis);
Vizualizacijos: histogramas, laiko eilučių grafikus, dėžių diagramas (boxplot), sklaidos grafikus (scatterplot), juostines ir pyrago diagramas.

Išvadinė statistika — pagrindinės sąvokos ir metodai

Išvadinė statistika leidžia daryti spėjimus apie populiaciją remiantis mėginiu:

Konfidencijos intervalai: intervalai, kurie su tam tikra tikimybe apima neaptiktą populiacijos parametrą;
Hipotezių tikrinimas: nulinė ir alternatyvi hipotezės, p-reikšmė (p-value), reikšmingumo lygis (α), I ir II klaidos (klaidingas teigimas arba neigimas);
Testai: t-testai, z-testai, χ² (chi kvadratas), ANOVA (vienfaktorinė ir daugfaktorinė), neparametriniai testai (Mann–Whitney, Kruskal–Wallis);
Regresija ir modeliavimas: paprastoji ir keliamoji tiesinė regresija, logistinė regresija, laiko eilučių modeliai, multivariatinių duomenų analizė;
Modelių vertinimas: R², koreliacijos koeficientai, kryžminė validacija (cross-validation), diagnostika dėl prielaidų pažeidimų (heteroskedastiškumas, autokorelacija, multikolinearumas).

Praktiniai taikymai

Statistika taikoma labai įvairiose srityse:

Medicina: klinikiniai tyrimai, vaistų veiksmingumo vertinimas, rizikos veiksnių nustatymas;
Ekonomika ir verslas: rinkos tyrimai, prognozės, kokybės kontrolė, A/B testavimas;
Moksliniai tyrimai: eksperimentų planavimas, duomenų analizė ir hipotezių testavimas;
Politika: apklausos ir rinkimų prognozės;
Rinkodara: klientų segmentavimas, kampanijų vertinimas.

Duomenų kokybė, trūkstami duomenys ir šališkumas

Dažnos problemos:

Trūkstami duomenys: galima juos šalinti (complete-case), imituoti (imputation) arba modeliuoti jų priklausomybę;
Matuojamumo klaidos: netikslūs instrumentai arba respondentų klaidos;
Šališkumas (bias): atrankos, matavimo arba konfirmacinis šališkumas gali iškreipti rezultatus;
Įtakingi taškai: ekstremalūs stebėjimai gali smarkiai paveikti vidurkius ir regresijos koeficientus.

Programinė įranga ir įrankiai

Populiariausi įrankiai statistinei analizei:

R: atvira ir galinga kalba statistikai, daug paketų įvairioms analizėms;
Python: pandas, NumPy, SciPy, statsmodels, scikit-learn — tinkama tiek statistikai, tiek mašininiam mokymuisi;
SPSS, Stata, SAS: komerciniai programiniai paketai, plačiai naudojami socialiniuose moksluose ir medicinoje;
Excel: paprastesnėms analizėms ir vizualizacijoms.

Etika ir atsakomybė

Statistikos naudojimas reikalauja atsakomybės:

Laikytis privatumo ir duomenų apsaugos taisyklių (pvz., GDPR);
Atsargiai interpretuoti rezultatus — nepainioti koreliacijos su priežastiniu ryšiu (correlation ≠ causation);
Skelbti prielaidų ir ribotumų informaciją, vengti selektyvaus rezultatų atskleidimo (p-hacking);
Užtikrinti, kad analizės metodai būtų tinkami duomenims ir su jais susijusiems sprendimams.

Praktinis patarimas

Pradėkite nuo aiškaus klausimo ir gerai apgalvoto duomenų rinkimo plano. Naudokite aprašomąją statistiką ir vizualizacijas, kad suprastumėte duomenis, o tada taikykite išvadinius metodus, atsižvelgdami į prielaidas ir galimus šališkumus. Jei įmanoma, patvirtinkite rezultatus naudojant kitas duomenų imtis arba kryžminę validaciją.

Statistika — tai galingas įrankis, padedantis priimti pagrįstus sprendimus ir suvokti sudėtingus reiškinius. Tinkamai taikoma ir kritiškai vertinama, ji suteikia vertingą informaciją daugelyje sričių.

Istorija

Pirmieji žinomi statistiniai duomenys yra gyventojų surašymo duomenys. Babiloniečiai surašinėjo gyventojus apie 3500 m. pr. m. e., egiptiečiai - apie 2500 m. pr. m. e., o senovės kinai - apie 1000 m. pr. m. e.

Nuo XVI a. matematikai, tokie kaip Gerolamo Cardano, sukūrė tikimybių teoriją, kuri statistiką pavertė mokslu. Nuo tada žmonės renka ir tiria statistinius duomenis apie daugelį dalykų. Medžiai, jūrų žvaigždės, žvaigždės, uolos, žodžiai, beveik viskas, ką galima suskaičiuoti, buvo statistikos objektas.

Duomenų rinkimas

Prieš aprašydami pasaulį statistiniais duomenimis, turime surinkti duomenis. Duomenys, kuriuos renkame statistikoje, vadinami matavimais. Surinkę duomenis, kiekvienam stebėjimui ar matavimui apibūdinti naudojame vieną ar daugiau skaičių. Pavyzdžiui, tarkime, norime sužinoti, kokia populiari yra tam tikra televizijos laida. Iš visos žiūrovų populiacijos galime pasirinkti žmonių grupę (vadinamą imtimi). Tada kiekvieno imties žiūrovo paklausiame, kaip dažnai jis žiūri šią laidą. Imtis yra duomenys, kuriuos galite matyti, o populiacija yra duomenys, kurių negalite matyti (nes ne kiekvieno populiacijos žiūrovo paklausėte). Kitas pavyzdys: jei norime sužinoti, ar tam tikras vaistas gali padėti sumažinti kraujospūdį, galėtume duoti vaisto žmonėms kurį laiką ir išmatuoti jų kraujospūdį prieš tai ir po to.

Aprašomoji ir išvestinė statistika

Skaičiai, apibūdinantys matomus duomenis, vadinami aprašomąja statistika. Skaičiai, kuriais galima prognozuoti duomenis, kurių nematote, vadinami išvadų statistika.

Aprašomoji statistika apima skaičių naudojimą duomenų savybėms apibūdinti. Pavyzdžiui, vidutinis moterų ūgis Jungtinėse Amerikos Valstijose yra aprašomoji statistika, apibūdinanti populiacijos (moterų Jungtinėse Amerikos Valstijose) bruožą (vidutinį ūgį).

Apibendrinus ir aprašius rezultatus, juos galima naudoti prognozavimui. Tai vadinama išvadų statistika. Pavyzdžiui, gyvūno dydis priklauso nuo daugelio veiksnių. Kai kuriuos iš šių veiksnių lemia aplinka, o kitus - paveldimumas. Todėl biologas gali sudaryti modelį, kuriame teigiama, kad yra didelė tikimybė, jog palikuonys bus maži, jei tėvai buvo maži. Šis modelis tikriausiai leidžia geriau prognozuoti dydį nei tiesiog spėjant atsitiktinai. Tikrinant, ar tam tikras vaistas gali būti naudojamas tam tikrai būklei ar ligai gydyti, paprastai lyginami žmonių, kuriems duodamas vaistas, ir žmonių, kuriems duodamas placebas, rezultatai.

Metodai

Dažniausiai statistinius duomenis renkame atlikdami apklausas arba eksperimentus. Pavyzdžiui, nuomonių apklausa yra viena iš apklausos rūšių. Pasirenkame nedidelį skaičių žmonių ir užduodame jiems klausimus. Tada jų atsakymus naudojame kaip duomenis.

Svarbu pasirinkti, kuriuos asmenis pasirinkti apklausai ar duomenų rinkimui, nes tai turi tiesioginės įtakos statistiniams duomenims. Atlikus statistiką, nebegalima nustatyti, kurie asmenys buvo paimti. Tarkime, norime išmatuoti didelio ežero vandens kokybę. Jei paimsime mėginius šalia nuotekų kanalo, gausime kitokius rezultatus, nei paėmę mėginius tolimoje, sunkiai pasiekiamoje, ežero vietoje.

Imant mėginius dažniausiai susiduriama su dviejų rūšių problemomis:

Jei imčių yra daug, tikėtina, kad jos bus labai panašios į tikrosios populiacijos. Tačiau jei imčių yra labai mažai, jos gali labai skirtis nuo realios populiacijos. Tokia paklaida vadinama atsitiktine paklaida (žr. Klaidos ir liekanos statistikoje).
Asmenys imtims turi būti kruopščiai parenkami, paprastai jie parenkami atsitiktinai. Jei taip nėra, imtys gali labai skirtis nuo tikrosios visos populiacijos. Tai pasakytina net ir tuo atveju, jei imamas didelis imčių skaičius. Tokia paklaida vadinama šališkumu.

Klaidos

Galime sumažinti atsitiktines klaidas, jei imsime didesnę imtį, ir išvengti tam tikro šališkumo, jei rinksimės atsitiktinai. Tačiau kartais sunku sudaryti dideles atsitiktines imtis. O šališkumas gali atsirasti, jei skirtingų žmonių neklausiame arba jie atsisako atsakyti į mūsų klausimus, arba jei jie žino, kad jiems taikomas netikras gydymas. Šias problemas gali būti sunku išspręsti. Taip pat žr. standartinę paklaidą.

Aprašomoji statistika

Duomenų vidurio paieška

Duomenų vidurys vadinamas vidurkiu. Vidurkis pasako apie tipišką populiacijos individą. Dažnai naudojami trijų rūšių vidurkiai: vidurkis, mediana ir moda.

Toliau pateiktuose pavyzdžiuose naudojami šie pavyzdiniai duomenys:

Pavadinimas | A B C D E F G H I J --------------------------------------------- rezultatas| 23 26 49 49 49 57 64 66 78 82 92

Vidutinis

Vidurkio formulė yra tokia

x¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {\displaystyle {\bar {x}}={\frac {1}{N}}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}{N}}}} ${\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}$

Kur x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},x_{2},\ldots ,x_{N}} $x_{1},x_{2},\ldots ,x_{N}$ yra duomenys, o N {\displaystyle N} $N$ yra populiacijos dydis. (žr. Sigma žymėjimą).

Tai reiškia, kad sudedamos visos reikšmės ir dalijama iš reikšmių skaičiaus.

Mūsų pavyzdyje x¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58,6 {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58,6} ${\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6$

Vidurkio problema ta, kad jis nieko nepasako apie tai, kaip pasiskirsčiusios reikšmės. Labai didelės arba labai mažos vertės labai pakeičia vidurkį. Statistikoje šios kraštutinės reikšmės gali būti matavimo klaidos, tačiau kartais populiacijoje iš tikrųjų yra tokių reikšmių. Pavyzdžiui, jei kambaryje yra 10 žmonių, kurie uždirba 10 dolerių per dieną, ir 1, kuris uždirba 1 000 000 dolerių per dieną. Duomenų vidurkis yra 90 918 JAV dolerių per dieną. Nors tai yra vidutinė suma, vidurkis šiuo atveju nėra suma, kurią uždirba kuris nors vienas asmuo, todėl kai kuriais tikslais yra nenaudingas.

Tai "aritmetinis vidurkis". Kai kuriais atvejais naudingi ir kiti vidurkiai.

Mediana

Mediana yra vidurinis duomenų elementas. Norėdami rasti medianą, surūšiuojame duomenis nuo mažiausio iki didžiausio skaičiaus ir pasirenkame skaičių per vidurį. Jei duomenų yra lyginis skaičius, nebus skaičiaus tiesiai per vidurį, todėl pasirenkame du vidurinius ir apskaičiuojame jų vidurkį. Mūsų pavyzdyje yra 10 duomenų elementų, du vidurinieji yra "57" ir "64", taigi mediana yra (57+64)/2 = 60,5. Kitas pavyzdys, kaip ir pajamų pavyzdys, pateiktas vidurkiui skaičiuoti, - panagrinėkime kambarį, kuriame yra 10 žmonių, kurių pajamos yra 10, 20, 20, 40, 50, 60, 90, 90, 100 ir 1 000 000 JAV dolerių, mediana yra 55 doleriai, nes 55 doleriai yra dviejų vidurinių skaičių - 50 ir 60 - vidurkis. Jei neatsižvelgsime į kraštutinę 1 000 000 JAV dolerių reikšmę, vidurkis bus $53. Šiuo atveju mediana yra artima reikšmei, gautai atmetus kraštutinę reikšmę. Mediana išsprendžia kraštutinių reikšmių problemą, aprašytą pirmiau pateiktame vidurkio apibrėžime.

Režimas

Modusas yra dažniausiai pasitaikantis duomenų elementas. Pavyzdžiui, dažniausiai pasitaikanti raidė anglų kalboje yra raidė "e". Sakytume, kad "e" yra raidžių pasiskirstymo moda.

Pavyzdžiui, jei kambaryje yra 10 žmonių, kurių pajamos yra 10, 20, 20, 40, 50, 60, 90, 90, 90, 100 ir 1 000 000 JAV dolerių, moda yra 90 JAV dolerių, nes 90 JAV dolerių pasitaiko tris kartus, o visos kitos vertės pasitaiko mažiau nei tris kartus.

Gali būti daugiau nei vienas režimas. Pavyzdžiui, jei kambaryje yra 10 žmonių, kurių pajamos yra 10, 20, 20, 20, 20, 50, 60, 90, 90, 90, 90, 100 ir 1 000 000 JAV dolerių, režimai yra 20 ir 90 dolerių. Tai yra bi-modalinis, arba turintis du režimus. Bi-modalumas yra labai paplitęs ir dažnai rodo, kad duomenys yra dviejų skirtingų grupių derinys. Pavyzdžiui, visų JAV suaugusiųjų vidutinis ūgis turi dvimodalinį pasiskirstymą. Taip yra todėl, kad vyrų ir moterų vidutinis ūgis yra skirtingas: vyrų - 1,763 m (5 pėdų 9 + 1⁄2 col.), moterų - 1,622 m (5 pėdų 4 col.). Šios viršūnės išryškėja sujungus abi grupes.

Modusas yra vienintelė vidurkio forma, kurią galima naudoti duomenims, kurių negalima sutvarkyti.

Duomenų sklaidos nustatymas

Kitas dalykas, kurį galime pasakyti apie duomenų rinkinį, yra tai, kaip jis pasiskirstęs. Įprastas būdas duomenų rinkinio sklaidai apibūdinti yra standartinis nuokrypis. Jei duomenų rinkinio standartinis nuokrypis yra mažas, vadinasi, dauguma duomenų yra labai artimi vidurkiui. Tačiau jei standartinis nuokrypis yra didelis, didelė dalis duomenų labai skiriasi nuo vidurkio.

Jei duomenys atitinka įprastą modelį, vadinamą normaliuoju skirstiniu, labai naudinga žinoti standartinį nuokrypį. Jei duomenys atitinka šį modelį (sakytume, kad duomenys pasiskirstę normaliai), maždaug 68 iš 100 duomenų vidutiniškai nukrypsta nuo vidurkio mažiau nei standartinis nuokrypis. Maža to, maždaug 95 iš 100 matavimų nuo vidurkio atsilieka mažiau nei du kartus didesniu standartiniu nuokrypiu, o 997 iš 1000 matavimų bus arčiau vidurkio nei trys standartiniai nuokrypiai.

Kita aprašomoji statistika

Statistiką taip pat galime naudoti norėdami sužinoti, kad tam tikras procentas, procentinė dalis, skaičius ar dalis žmonių ar daiktų grupėje ką nors daro arba priklauso tam tikrai kategorijai.

Pavyzdžiui, socialinių mokslų specialistai, remdamiesi statistiniais duomenimis, nustatė, kad 49 % pasaulio žmonių yra vyrai.

Susijusi programinė įranga

Siekiant padėti statistikams, sukurta daug statistinės programinės įrangos:

SAS institutas
SPSS (gamintojas - IBM)

Klausimai ir atsakymai

K: Kas yra statistika?

A: Statistika yra taikomosios matematikos šaka, susijusi su duomenų rinkimu, organizavimu, analize, skaitymu ir pateikimu.

K: Kokios yra dvi statistikos rūšys?

A: Yra dvi statistikos rūšys: aprašomoji ir išvestinė. Aprašomoji statistika apibendrina duomenis, o išvestinė statistika leidžia prognozuoti.

K: Kaip statistika padeda kitose srityse?

A: Statistika padeda studijuoti daugelyje kitų sričių, pavyzdžiui, mokslo, medicinos, ekonomikos, psichologijos, politikos ir rinkodaros.

K: Kas dirba statistikos srityje?

A: Statistikos srityje dirbantis žmogus vadinamas statistiku.

K: Ką reiškia žodis "statistika"?

A: Žodis "statistika" gali reikšti ne tik studijų srities pavadinimą, bet ir skaičius, kurie naudojami duomenims ar ryšiams apibūdinti.

K: Kokia veikla užsiima statistikai?

A: Statistikos specialistai užsiima tokia veikla kaip duomenų rinkimas, sisteminimas, analizė, skaitymas ir pateikimas.

Ieškoti