Kas yra histograma: apibrėžimas ir pavyzdžiai statistikoje

Sužinokite, kas yra histograma: aiškus apibrėžimas, praktiniai pavyzdžiai ir vizualizacijos paaiškinimai statistikoje — supraskite duomenų pasiskirstymą greitai.

Autorius: Leandro Alegsa

Histograma yra statistikos sąvoka. Tai grafinis vaizdas, kuris pasakoja apie imčių pasiskirstymą. Dažniausiai jos yra paveikslas, sudarytas iš lentelės su daugybe kategorijų. Lentelėje nurodoma, kiek imčių yra kiekvienoje kategorijoje. Histograma paprastai rodoma kaip gretimos stačiakampių juostų (angl. bars) seka – kiekviena juosta atitinka tam tikrą intervalą (vadinamą „bin“ arba klasė) ir jos aukštis parodo to intervalo dažnį arba tankį. Histogramos naudojamos tiek aprašomojoje statistikoje, tiek duomenų analizėje norint greitai įvertinti duomenų formą, variaciją, užuominą apie išsklaidą ir galimus anomalus.

Žodis histograma kilęs iš graikų kalbos žodžių histos ir gramma. Histos reiškia tinklą arba stiebą. Gramma reiškia piešinį, įrašą arba raštą. Taigi, etimologiškai kalbant, kažko histograma yra to kažko tinklo piešinys. Istoriškai histogramos atsirado kaip patogus būdas pavaizduoti dažnius dideliuose duomenų rinkiniuose, ypač kai reikėdavo suprasti, kaip reikšmės pasiskirsto tolyje ar susitelkia aplink tam tikras sritis.

Kas sudaro histogramą ir kaip ją skaityti

  • Binos (klasės): intervalai, į kuriuos suskirstomi duomenys (pvz., 0–10, 10–20 ir t. t.).
  • Dažnis: kiek reikšmių patenka į kiekvieną biną; tai atitinka juostos aukštį.
  • Aukštis ar plotas: standartinė histograma naudoja juostos aukštį dažniui, tačiau kuriant tankio histogramos (normalizuotas) svarbus yra juostos plotas — tuomet bendras plotas lygus 1 ir histograma primena tikimybės tankio funkciją.

Skaitydami histogramą ieškokite pagrindinių požymių: kur yra didžiausias dažnis (modalinė sritis), ar pasiskirstymas yra simetriškas arba nugara į dešinę/į kairę (skewness), ar yra keli aiškūs piko (multimodalumas), taip pat ar yra ilgų uodegų arba atskirų taškų, kurie gali būti išskirtiniai (outlieriai).

Kaip sudaryti histogramą – žingsniai

  1. Suvokite duomenų tipą: histograma tinka nuosekliems, kiekybiniams (kontinuumiem arba diskretiems su daug reikšmių) duomenims.
  2. Pasirinkite binų skaičių arba binų pločius. Tai turi įtakos rezultatui: per mažai binų – prarandama informacija; per daug – išryškėja triukšmas.
  3. Suskaičiuokite, kiek reikšmių patenka į kiekvieną biną (dažnį).
  4. Nubrėžkite juostas: kiekvienos klasės intervalas ant x ašies, aukštis – dažnis arba tankis ant y ašies.

Kaip pasirinkti binų skaičių (praktiniai patarimai)

  • Sturges taisyklė: binų skaičius ≈ log2(n) + 1 (veiksminga mažesnėms imtims).
  • Freedman–Diaconis taisyklė: naudoja interkvartilinį diapazoną (IQR) ir imties dydį, siekiant pasirinkti bin pločio; dažnai duoda geresnį rezultatą su išsklaidytais duomenimis.
  • Eksperimentuokite – palyginkite kelias histogramas su skirtingais binais, kad suprastumėte, kuri geriausiai atskleidžia duomenų struktūrą.

Pavyzdžiai praktiškai

1) Egzamino balai: turint 200 studentų balų (0–100), histogramoje galima suskirstyti intervalais po 10 taškų (0–9, 10–19 ir t. t.). Jei daugiausiai balų susitelkę 70–79 intervale, tai rodo, kad toje srityje yra daug studentų.

2) Inžinerinis matavimas: matavimai, tokie kaip ilgių nuokrypiai ar temperatūros reikšmės, dažnai rodo artimą normalų pasiskirstymą – histogramoje matysite vieną simetrišką „kalną“.

3) Pardavimai: mėnesinės pardavimų sumos gali būti dvimodalios (dvi aiškios piko grupės), jei skirtingos klientų grupės perka skirtingais sezonais.

Skirtumas tarp histogramų ir stulpelinių diagramų

  • Histograma skirta kiekybiniams duomenims; juostos susiliečia, nes intervalai yra tęstiniai.
  • Stulpelinė diagrama (bar chart) tinka kategoriniams duomenims; juostos tarpusavyje atskiros ir kiekviena reiškia atskirą kategoriją.

Interpretavimo gairės

  • Skewness (asimetrija): dešininė (right) asimetrija reiškia ilgą uodegą į didesnes reikšmes; kairinė – į mažesnes.
  • Modos: viena moda (unimodalus), dvi (bimodalus) ar kelios (multimodalus) gali rodyti skirtingas duomenų subpopuliacijas.
  • Uodegos: ilgos uodegos gali reikšti ekstremalias reikšmes arba dispersiją; svarbu patikrinti ar tai duomenų ypatumas ar klaidos rezultatas.

Praktiniai įrankiai

Histogramas lengva kurti naudojant statistines programas ir biblioteka: R funkcija hist(), Python su matplotlib.pyplot.hist() ar seaborn.histplot(), taip pat daugelyje skaičiuoklių (pvz., Excel) yra histogramų įrankiai. Daugelyje įrankių galima rinktis normalizaciją, binų skaičių ir stiliaus nustatymus.

Dažnos klaidos ir ribojimai

  • Per didelis arba per mažas binų skaičius gali iškreipti vaizdą.
  • Histogramų interpretacija priklauso nuo pasirinkto intervalo – todėl verta pateikti informaciją apie binų dydį.
  • Histogramą verta derinti su kitais vaizdais (pvz., dėžių diagrama – boxplot arba kernelio tankio grafiku), kad gauti tikslesnį vaizdą apie duomenis.

Apibendrinant, histograma yra paprasta, bet galinga priemonė greitai pamatyti duomenų pasiskirstymą, identifikuoti modalines sritis, asimetriją ir galimus anomalus. Tinkamai parinkus binus ir interpretuojant rezultatą, histograma padeda priimti pagrįstus sprendimus analizuojant kiekybinius duomenis.

100 normaliai pasiskirsčiusių atsitiktinių reikšmių histogramos pavyzdysZoom
100 normaliai pasiskirsčiusių atsitiktinių reikšmių histogramos pavyzdys

Panašios idėjos

Histograma yra vienas iš septynių pagrindinių kokybės kontrolės įrankių, tarp kurių taip pat yra Pareto diagrama, kontrolinė lentelė, kontrolinė diagrama, priežasčių ir pasekmių diagrama, srautų diagrama ir sklaidos diagrama.

Histogramos apibendrinimas - branduolio išlyginimo metodai. Taip iš pateiktų duomenų sukonstruojama lygi tikimybės tankio funkcija.

Klausimai ir atsakymai

K: Kas yra histograma?


A: Histograma yra grafinis vaizdas, kuris pasakoja apie imčių pasiskirstymą.

K: Koks histogramos tikslas?


A: Histogramos tikslas - parodyti atitinkamų imčių pasiskirstymą.

K: Ką reiškia žodis histograma?


A: Žodis histograma yra kilęs iš graikų kalbos žodžių histos ir gramma. Histos reiškia tinklą arba stiebą. Gramma reiškia piešinį, įrašą arba raštą.

K: Ką graikų kalboje reiškia terminas "histos"?


A: Terminas "histos" graikiškai reiškia tinklą arba stiebą.

K: Ką graikiškai reiškia terminas "gramma"?


A: Terminas "gramma" graikiškai reiškia piešinį, įrašą arba raštą.

K: Koks yra bendras histogramos bruožas?


A: Bendra histogramos savybė - tai paveikslas, sudarytas iš lentelės su daugybe kategorijų.

K: Kokią informaciją pateikia histogramos lentelė?


A: Histogramos lentelėje pateikiama informacija apie tai, kiek pavyzdžių yra kiekvienoje kategorijoje.


Ieškoti
AlegsaOnline.com - 2020 / 2025 - License CC3