Statistika
Statistika yra taikomosios matematikos šaka, susijusi su duomenų rinkimu, tvarkymu, analize, aiškinimu ir pateikimu. Aprašomoji statistika apibendrina duomenis. Išvadinė statistika leidžia daryti prognozes. Statistika padeda tirti daugelį kitų sričių, pavyzdžiui, mokslo, medicinos, ekonomikos, psichologijos, politikos ir rinkodaros. Asmuo, dirbantis statistikos srityje, vadinamas statistiku. Žodis "statistika" ne tik yra mokslo srities pavadinimas, bet ir reiškia skaičius, kurie naudojami duomenims ar ryšiams apibūdinti.
Istorija
Pirmieji žinomi statistiniai duomenys yra gyventojų surašymo duomenys. Babiloniečiai surašinėjo gyventojus apie 3500 m. pr. m. e., egiptiečiai - apie 2500 m. pr. m. e., o senovės kinai - apie 1000 m. pr. m. e.
Nuo XVI a. matematikai, tokie kaip Gerolamo Cardano, sukūrė tikimybių teoriją, kuri statistiką pavertė mokslu. Nuo tada žmonės renka ir tiria statistinius duomenis apie daugelį dalykų. Medžiai, jūrų žvaigždės, žvaigždės, uolos, žodžiai, beveik viskas, ką galima suskaičiuoti, buvo statistikos objektas.
Duomenų rinkimas
Prieš aprašydami pasaulį statistiniais duomenimis, turime surinkti duomenis. Duomenys, kuriuos renkame statistikoje, vadinami matavimais. Surinkę duomenis, kiekvienam stebėjimui ar matavimui apibūdinti naudojame vieną ar daugiau skaičių. Pavyzdžiui, tarkime, norime sužinoti, kokia populiari yra tam tikra televizijos laida. Iš visos žiūrovų populiacijos galime pasirinkti žmonių grupę (vadinamą imtimi). Tada kiekvieno imties žiūrovo paklausiame, kaip dažnai jis žiūri šią laidą. Imtis yra duomenys, kuriuos galite matyti, o populiacija yra duomenys, kurių negalite matyti (nes ne kiekvieno populiacijos žiūrovo paklausėte). Kitas pavyzdys: jei norime sužinoti, ar tam tikras vaistas gali padėti sumažinti kraujospūdį, galėtume duoti vaisto žmonėms kurį laiką ir išmatuoti jų kraujospūdį prieš tai ir po to.
Aprašomoji ir išvestinė statistika
Skaičiai, apibūdinantys matomus duomenis, vadinami aprašomąja statistika. Skaičiai, kuriais galima prognozuoti duomenis, kurių nematote, vadinami išvadų statistika.
Aprašomoji statistika apima skaičių naudojimą duomenų savybėms apibūdinti. Pavyzdžiui, vidutinis moterų ūgis Jungtinėse Amerikos Valstijose yra aprašomoji statistika, apibūdinanti populiacijos (moterų Jungtinėse Amerikos Valstijose) bruožą (vidutinį ūgį).
Apibendrinus ir aprašius rezultatus, juos galima naudoti prognozavimui. Tai vadinama išvadų statistika. Pavyzdžiui, gyvūno dydis priklauso nuo daugelio veiksnių. Kai kuriuos iš šių veiksnių lemia aplinka, o kitus - paveldimumas. Todėl biologas gali sudaryti modelį, kuriame teigiama, kad yra didelė tikimybė, jog palikuonys bus maži, jei tėvai buvo maži. Šis modelis tikriausiai leidžia geriau prognozuoti dydį nei tiesiog spėjant atsitiktinai. Tikrinant, ar tam tikras vaistas gali būti naudojamas tam tikrai būklei ar ligai gydyti, paprastai lyginami žmonių, kuriems duodamas vaistas, ir žmonių, kuriems duodamas placebas, rezultatai.
Metodai
Dažniausiai statistinius duomenis renkame atlikdami apklausas arba eksperimentus. Pavyzdžiui, nuomonių apklausa yra viena iš apklausos rūšių. Pasirenkame nedidelį skaičių žmonių ir užduodame jiems klausimus. Tada jų atsakymus naudojame kaip duomenis.
Svarbu pasirinkti, kuriuos asmenis pasirinkti apklausai ar duomenų rinkimui, nes tai turi tiesioginės įtakos statistiniams duomenims. Atlikus statistiką, nebegalima nustatyti, kurie asmenys buvo paimti. Tarkime, norime išmatuoti didelio ežero vandens kokybę. Jei paimsime mėginius šalia nuotekų kanalo, gausime kitokius rezultatus, nei paėmę mėginius tolimoje, sunkiai pasiekiamoje, ežero vietoje.
Imant mėginius dažniausiai susiduriama su dviejų rūšių problemomis:
- Jei imčių yra daug, tikėtina, kad jos bus labai panašios į tikrosios populiacijos. Tačiau jei imčių yra labai mažai, jos gali labai skirtis nuo realios populiacijos. Tokia paklaida vadinama atsitiktine paklaida (žr. Klaidos ir liekanos statistikoje).
- Asmenys imtims turi būti kruopščiai parenkami, paprastai jie parenkami atsitiktinai. Jei taip nėra, imtys gali labai skirtis nuo tikrosios visos populiacijos. Tai pasakytina net ir tuo atveju, jei imamas didelis imčių skaičius. Tokia paklaida vadinama šališkumu.
Klaidos
Galime sumažinti atsitiktines klaidas, jei imsime didesnę imtį, ir išvengti tam tikro šališkumo, jei rinksimės atsitiktinai. Tačiau kartais sunku sudaryti dideles atsitiktines imtis. O šališkumas gali atsirasti, jei skirtingų žmonių neklausiame arba jie atsisako atsakyti į mūsų klausimus, arba jei jie žino, kad jiems taikomas netikras gydymas. Šias problemas gali būti sunku išspręsti. Taip pat žr. standartinę paklaidą.
Aprašomoji statistika
Duomenų vidurio paieška
Duomenų vidurys vadinamas vidurkiu. Vidurkis pasako apie tipišką populiacijos individą. Dažnai naudojami trijų rūšių vidurkiai: vidurkis, mediana ir moda.
Toliau pateiktuose pavyzdžiuose naudojami šie pavyzdiniai duomenys:
Pavadinimas | A B C D E F G H I J --------------------------------------------- rezultatas| 23 26 49 49 49 57 64 66 78 82 92Vidutinis
Vidurkio formulė yra tokia
x¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {\displaystyle {\bar {x}}={\frac {1}{N}}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}{N}}}}
Kur x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},x_{2},\ldots ,x_{N}} yra duomenys, o N {\displaystyle N} yra populiacijos dydis. (žr. Sigma žymėjimą).
Tai reiškia, kad sudedamos visos reikšmės ir dalijama iš reikšmių skaičiaus.
Mūsų pavyzdyje x¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58,6 {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58,6}
Vidurkio problema ta, kad jis nieko nepasako apie tai, kaip pasiskirsčiusios reikšmės. Labai didelės arba labai mažos vertės labai pakeičia vidurkį. Statistikoje šios kraštutinės reikšmės gali būti matavimo klaidos, tačiau kartais populiacijoje iš tikrųjų yra tokių reikšmių. Pavyzdžiui, jei kambaryje yra 10 žmonių, kurie uždirba 10 dolerių per dieną, ir 1, kuris uždirba 1 000 000 dolerių per dieną. Duomenų vidurkis yra 90 918 JAV dolerių per dieną. Nors tai yra vidutinė suma, vidurkis šiuo atveju nėra suma, kurią uždirba kuris nors vienas asmuo, todėl kai kuriais tikslais yra nenaudingas.
Tai "aritmetinis vidurkis". Kai kuriais atvejais naudingi ir kiti vidurkiai.
Mediana
Mediana yra vidurinis duomenų elementas. Norėdami rasti medianą, surūšiuojame duomenis nuo mažiausio iki didžiausio skaičiaus ir pasirenkame skaičių per vidurį. Jei duomenų yra lyginis skaičius, nebus skaičiaus tiesiai per vidurį, todėl pasirenkame du vidurinius ir apskaičiuojame jų vidurkį. Mūsų pavyzdyje yra 10 duomenų elementų, du vidurinieji yra "57" ir "64", taigi mediana yra (57+64)/2 = 60,5. Kitas pavyzdys, kaip ir pajamų pavyzdys, pateiktas vidurkiui skaičiuoti, - panagrinėkime kambarį, kuriame yra 10 žmonių, kurių pajamos yra 10, 20, 20, 40, 50, 60, 90, 90, 100 ir 1 000 000 JAV dolerių, mediana yra 55 doleriai, nes 55 doleriai yra dviejų vidurinių skaičių - 50 ir 60 - vidurkis. Jei neatsižvelgsime į kraštutinę 1 000 000 JAV dolerių reikšmę, vidurkis bus $53. Šiuo atveju mediana yra artima reikšmei, gautai atmetus kraštutinę reikšmę. Mediana išsprendžia kraštutinių reikšmių problemą, aprašytą pirmiau pateiktame vidurkio apibrėžime.
Režimas
Modusas yra dažniausiai pasitaikantis duomenų elementas. Pavyzdžiui, dažniausiai pasitaikanti raidė anglų kalboje yra raidė "e". Sakytume, kad "e" yra raidžių pasiskirstymo moda.
Pavyzdžiui, jei kambaryje yra 10 žmonių, kurių pajamos yra 10, 20, 20, 40, 50, 60, 90, 90, 90, 100 ir 1 000 000 JAV dolerių, moda yra 90 JAV dolerių, nes 90 JAV dolerių pasitaiko tris kartus, o visos kitos vertės pasitaiko mažiau nei tris kartus.
Gali būti daugiau nei vienas režimas. Pavyzdžiui, jei kambaryje yra 10 žmonių, kurių pajamos yra 10, 20, 20, 20, 20, 50, 60, 90, 90, 90, 90, 100 ir 1 000 000 JAV dolerių, režimai yra 20 ir 90 dolerių. Tai yra bi-modalinis, arba turintis du režimus. Bi-modalumas yra labai paplitęs ir dažnai rodo, kad duomenys yra dviejų skirtingų grupių derinys. Pavyzdžiui, visų JAV suaugusiųjų vidutinis ūgis turi dvimodalinį pasiskirstymą. Taip yra todėl, kad vyrų ir moterų vidutinis ūgis yra skirtingas: vyrų - 1,763 m (5 pėdų 9 + 1⁄2 col.), moterų - 1,622 m (5 pėdų 4 col.). Šios viršūnės išryškėja sujungus abi grupes.
Modusas yra vienintelė vidurkio forma, kurią galima naudoti duomenims, kurių negalima sutvarkyti.
Duomenų sklaidos nustatymas
Kitas dalykas, kurį galime pasakyti apie duomenų rinkinį, yra tai, kaip jis pasiskirstęs. Įprastas būdas duomenų rinkinio sklaidai apibūdinti yra standartinis nuokrypis. Jei duomenų rinkinio standartinis nuokrypis yra mažas, vadinasi, dauguma duomenų yra labai artimi vidurkiui. Tačiau jei standartinis nuokrypis yra didelis, didelė dalis duomenų labai skiriasi nuo vidurkio.
Jei duomenys atitinka įprastą modelį, vadinamą normaliuoju skirstiniu, labai naudinga žinoti standartinį nuokrypį. Jei duomenys atitinka šį modelį (sakytume, kad duomenys pasiskirstę normaliai), maždaug 68 iš 100 duomenų vidutiniškai nukrypsta nuo vidurkio mažiau nei standartinis nuokrypis. Maža to, maždaug 95 iš 100 matavimų nuo vidurkio atsilieka mažiau nei du kartus didesniu standartiniu nuokrypiu, o 997 iš 1000 matavimų bus arčiau vidurkio nei trys standartiniai nuokrypiai.
Kita aprašomoji statistika
Statistiką taip pat galime naudoti norėdami sužinoti, kad tam tikras procentas, procentinė dalis, skaičius ar dalis žmonių ar daiktų grupėje ką nors daro arba priklauso tam tikrai kategorijai.
Pavyzdžiui, socialinių mokslų specialistai, remdamiesi statistiniais duomenimis, nustatė, kad 49 % pasaulio žmonių yra vyrai.
Susijusi programinė įranga
Siekiant padėti statistikams, sukurta daug statistinės programinės įrangos:
- SAS institutas
- SPSS (gamintojas - IBM)
Klausimai ir atsakymai
K: Kas yra statistika?
A: Statistika yra taikomosios matematikos šaka, susijusi su duomenų rinkimu, organizavimu, analize, skaitymu ir pateikimu.
K: Kokios yra dvi statistikos rūšys?
A: Yra dvi statistikos rūšys: aprašomoji ir išvestinė. Aprašomoji statistika apibendrina duomenis, o išvestinė statistika leidžia prognozuoti.
K: Kaip statistika padeda kitose srityse?
A: Statistika padeda studijuoti daugelyje kitų sričių, pavyzdžiui, mokslo, medicinos, ekonomikos, psichologijos, politikos ir rinkodaros.
K: Kas dirba statistikos srityje?
A: Statistikos srityje dirbantis žmogus vadinamas statistiku.
K: Ką reiškia žodis "statistika"?
A: Žodis "statistika" gali reikšti ne tik studijų srities pavadinimą, bet ir skaičius, kurie naudojami duomenims ar ryšiams apibūdinti.
K: Kokia veikla užsiima statistikai?
A: Statistikos specialistai užsiima tokia veikla kaip duomenų rinkimas, sisteminimas, analizė, skaitymas ir pateikimas.