Koreliacija statistikoje: apibrėžimas, tipai ir matavimo metodai

Statistikoje ir tikimybių teorijoje koreliacija reiškia, kaip glaudžiai susiję du duomenų rinkiniai.

Koreliacija ne visada reiškia, kad vienas veiksnys lemia kitą. Labai gali būti, kad yra ir trečias veiksnys.

Koreliacija paprastai būna vienos iš dviejų krypčių. Jos būna teigiamos arba neigiamos. Jei ji teigiama, tai du rinkiniai kyla kartu. Jei ji neigiama, tai vienas rinkinys didėja, o kitas mažėja.

Įvairiose situacijose naudojama daug skirtingų koreliacijos matavimų. Pavyzdžiui, sklaidos grafike žmonės brėžia geriausio atitikimo liniją, kad parodytų koreliacijos kryptį.

Apibrėžimas ir interpretacija

Koreliacijos koeficientas kvantifikuoja ryšio stiprumą ir kryptį tarp dviejų kintamųjų. Dažniausiai naudojamas rodiklis yra Pearsono koreliacijos koeficientas (r), kurio reikšmės svyruoja nuo -1 iki +1:

  • r ≈ +1: stipri teigiama linijinė koreliacija;
  • r ≈ -1: stipri neigiama linijinė koreliacija;
  • r ≈ 0: nėra linijinės koreliacijos (tačiau gali būti nelinijinis ryšys).

Apytikslės interpretacijos masteliai (pvz., pagal Cohen): |r| ≈ 0.1 — silpna, ≈ 0.3 — vidutinė, ≈ 0.5 ir daugiau — stipri. Vis dėlto prasmė priklauso nuo srities ir konteksto.

Koreliacijos tipai ir jų panaudojimas

  • Pearsonas (linijinė koreliacija) — matuoja tiesinį ryšį tarp dviejų intervalinių arba santykinių kintamųjų. Prielaidos: linearumas, bivariate normalumas, homoskedastiškumas, mažai išskirtinių reikšmių (outliers).
  • Spearmano rango koreliacija — neparametrinis rodiklis, pagrįstas reikšmių rangais. Tinka, jei ryšys yra monotoniškas, bet nelinijinis, arba duomenyse yra išskirtinių verčių.
  • Kendallo tau — dar vienas rango pagrindu veikiantis rodiklis; dažnai stabilus mažesnėms imtims ir duomenims su daug vietų su rištais rangais (ties).
  • Point-biserial ir phi koeficientai — koreliacijos tarp vieno dichotominio (dvivarianto) ir vieno intervalinio kintamojo arba tarp dviejų dichotominių kintamųjų.
  • Autokoreliacija ir kryžminė koreliacija — laiko eilučių analizėje matuoja priklausomybę tarp taškų su laiko delsos (lag) arba tarp dviejų skirtingų laiko eilučių.

Matavimo metodai ir formulės

Pearsono koreliacijos formulė (apibendrintas vaizdas):

r = sum((xi - x̄)(yi - ȳ)) / sqrt(sum((xi - x̄)^2) * sum((yi - ȳ)^2))

Spearmano koreliacija apskaičiuojama kaip Pearson koeficiento taikymas rangams arba naudojant specialią formulę, kai nėra daug rištų rangų.

Statistinė reikšmė dažnai tikrinama hipotezės testu (pvz., t-testas Pearson r atveju): t = r * sqrt((n-2)/(1-r^2)), kur n — stebėjimų skaičius.

Vizualizacijos ir diagnostika

  • Sklaidos (scatter) grafikas — pirmas žingsnis: leidžia pamatyti linijinį ar nelinijinį ryšį, išskirtines reikšmes ir klasterius.
  • Geriausio atitikimo (regresijos) linija — pabrėžia bendrą kryptį.
  • Korrelacijų matrica ir heatmap — patogu analizuoti daugelio kintamųjų tarpusavio ryšius.
  • Correlogram — naudingas laiko eilučių autokoreliacijai.

Ribojimai ir atsargumo priemonės

  • Priežastinis ryšys — koreliacija nereiškia priežastingumo. Reikia papildomų tyrimų (eksperimentų, laiko sekos analizės, instrumentinių kintamųjų), kad būtų pagrįstas priežastinis teiginys.
  • Trečiasis veiksnys (konfuderis) — keliami spurious correlations, kai koreliacija atsiranda dėl bendros priežasties.
  • Išskirtinės reikšmės (outliers) gali reikšmingai paveikti Pearson koeficientą; Spearmano ar Kendall metodai yra atsparesni.
  • Nelinijiniai ryšiai gali būti nepastebimi naudojant tik Pearson r; tada geriau naudoti rango metodus arba modeliuoti nelinijinį ryšį (polinominė regresija, GLM, GAM).
  • Simpsono paradoksas — bendras ryšys gali skirtis nuo posistemų ryšių; būtina analizuoti grupes atskirai.

Kaip tinkamai pateikti rezultatus

Renkantis, ką pranešti, rekomenduojama pateikti:

  • koreliacijos koeficientą (pvz., r = 0.42),
  • stebėjimų skaičių (n),
  • statistinę reikšmę (p reikšmė) ir pageidautina konfidencijos intervalą (pvz., 95% CI),
  • grafiką (sklaidos diagramos) bei trumpą paaiškinimą, ar prielaidos buvo patikrintos (pvz., linearumo, išskirtinių verčių tikrinimas).

Praktiniai patarimai ir įrankiai

  • Patikrinkite duomenis grafiškai prieš skaičiuodami koreliacijas.
  • Jei įtariate nelinijinį ryšį, naudokite Spearmano ar nelinijines modelių priemones.
  • Atminkite, kad didelė imtis gali padaryti statistiškai reikšmingu net labai mažą koreliaciją — vertinkite ir praktišką reikšmę.
  • Populiarios priemonės: R (funkcijos cor(), cor.test()), Python (numpy.corrcoef, scipy.stats.pearsonr/spearmanr), statistinės programos (SPSS, Stata).

Pavyzdžiai

1) Teigiamas ryšys: aukštesnis išsilavinimas dažnai siejamas su didesniu atlyginimu — teigiama koreliacija, tačiau ne visuomet tiesioginis priežastingumas dėl daugelio veiksnių.

2) Neigiamas ryšys: laikas, praleistas miegoje, gali būti neigiamai koreliuojamas su nuovargiu darbo dienos metu (daugiau miego — mažiau nuovargio).

3) Klaidinantis pavyzdys: ledų pardavimai gali koreliuoti su išorės temperatūra — abu reaguoja į trečią veiksnį (sezoną), todėl neturėtume sakyti, kad ledai sukelia karštį.

Apibendrinant, koreliacija yra galinga priemonė ryšiams aptikti ir kvantifikuoti, tačiau ją būtina interpretuoti atsargiai, patikrinti prielaidas ir papildyti tolimesne analize prieš darydami priežastinius teiginius.

Ši sklaidos diagrama turi teigiamą koreliaciją. Tai matyti iš to, kad tendencija yra į viršų ir į dešinę. Raudona linija yra geriausio atitikimo linija.Zoom
Ši sklaidos diagrama turi teigiamą koreliaciją. Tai matyti iš to, kad tendencija yra į viršų ir į dešinę. Raudona linija yra geriausio atitikimo linija.

Koreliacijos paaiškinimas

Stiprus ir silpnas - tai žodžiai, kuriais apibūdinama koreliacija. Jei koreliacija yra stipri, visi taškai yra arti vienas kito. Jei koreliacija silpna, visi taškai yra išsidėstę vienas nuo kito. Yra būdų, kaip skaičiais parodyti, kokia stipri yra koreliacija. Šie matavimai vadinami koreliacijos koeficientais. Geriausiai žinomas yra Pirsono sandaugos-momentinės koreliacijos koeficientas. Į formulę įrašykite duomenis ir gausite skaičių. Jei šis skaičius yra 1 arba -1, vadinasi, koreliacija yra stipri. Jei atsakymas yra 0, vadinasi, koreliacijos nėra. Kita koreliacijos koeficiento rūšis yra Spearmano ranginės koreliacijos koeficientas.

Koreliacija ir priežastingumas

Sąryšis ne visada reiškia, kad vienas dalykas lemia kitą (priežastinis ryšys), nes kažkas kitas galėjo lemti abu dalykus. Pavyzdžiui, karštomis dienomis žmonės perka ledus, taip pat eina į paplūdimį, kur kai kuriuos jų papjauna rykliai. Tarp ledų pardavimo ir ryklių išpuolių yra ryšys (šiuo atveju temperatūrai pakilus, abu šie rodikliai padidėja). Tačiau tai, kad ledų pardavimas padidėja, nereiškia, kad ledų pardavimas lemia (priežastinis ryšys) daugiau ryklių išpuolių arba atvirkščiai.

Kadangi koreliacija nereiškia priežastinio ryšio, mokslininkai, ekonomistai ir kt. tikrina savo teorijas kurdami izoliuotas aplinkas, kuriose keičiamas tik vienas veiksnys (jei tai įmanoma). Tačiau politikai, prekybininkai, naujienų portalai ir kiti asmenys dažnai teigia, kad tam tikra koreliacija reiškia priežastinį ryšį. Taip gali būti dėl nežinojimo arba noro įtikinti. Taip naujienų reportaže gali būti atkreiptas dėmesys į tai, kad žmonės, kurie dažniau vartoja tam tikrą produktą, turi tam tikrų sveikatos problemų, ir taip užsimenama apie priežastinį ryšį, kuris iš tikrųjų gali būti susijęs su kažkuo kitu.

Susiję puslapiai

  • Cohen, J., Cohen P., West, S.G., & Aiken, L.S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences. (3rd ed.) Hillsdale, NJ: Lawrence Erlbaum Associates.

Klausimai ir atsakymai

Klausimas: Kas yra koreliacija?


A: Koreliacija - tai būdas parodyti, kaip glaudžiai susiję du duomenų rinkiniai.

K: Ar koreliacija reiškia, kad vienas duomenų rinkinys lemia kitą?


A: Ne, koreliacija ne visada reiškia, kad vienas duomenų rinkinys lemia kitą. Iš tikrųjų dažnai yra trečiasis veiksnys.

K: Kokios yra dvi koreliacijos kryptys?


A.: Dvi koreliacijos kryptys yra teigiama ir neigiama.

K: Ką reiškia teigiama koreliacija?


A: Teigiama koreliacija reiškia, kad du duomenų rinkiniai kartu didėja.

K: Ką reiškia neigiama koreliacija?


A: Neigiama koreliacija reiškia, kad vienas duomenų rinkinys didėja, o kitas mažėja.

K: Ar yra skirtingų koreliacijos matavimų?


Atsakymas: Taip, skirtingose situacijose naudojama daug skirtingų koreliacijos matavimų.

K: Kaip žmonės dažnai rodo koreliacijos kryptį sklaidos diagramoje?


A.: Norėdami parodyti koreliacijos kryptį sklaidos grafike, žmonės dažnai brėžia geriausio atitikimo liniją.

AlegsaOnline.com - 2020 / 2025 - License CC3