Statistikoje ir tikimybių teorijoje koreliacija reiškia, kaip glaudžiai susiję du duomenų rinkiniai.
Koreliacija ne visada reiškia, kad vienas veiksnys lemia kitą. Labai gali būti, kad yra ir trečias veiksnys.
Koreliacija paprastai būna vienos iš dviejų krypčių. Jos būna teigiamos arba neigiamos. Jei ji teigiama, tai du rinkiniai kyla kartu. Jei ji neigiama, tai vienas rinkinys didėja, o kitas mažėja.
Įvairiose situacijose naudojama daug skirtingų koreliacijos matavimų. Pavyzdžiui, sklaidos grafike žmonės brėžia geriausio atitikimo liniją, kad parodytų koreliacijos kryptį.
Apibrėžimas ir interpretacija
Koreliacijos koeficientas kvantifikuoja ryšio stiprumą ir kryptį tarp dviejų kintamųjų. Dažniausiai naudojamas rodiklis yra Pearsono koreliacijos koeficientas (r), kurio reikšmės svyruoja nuo -1 iki +1:
- r ≈ +1: stipri teigiama linijinė koreliacija;
- r ≈ -1: stipri neigiama linijinė koreliacija;
- r ≈ 0: nėra linijinės koreliacijos (tačiau gali būti nelinijinis ryšys).
Apytikslės interpretacijos masteliai (pvz., pagal Cohen): |r| ≈ 0.1 — silpna, ≈ 0.3 — vidutinė, ≈ 0.5 ir daugiau — stipri. Vis dėlto prasmė priklauso nuo srities ir konteksto.
Koreliacijos tipai ir jų panaudojimas
- Pearsonas (linijinė koreliacija) — matuoja tiesinį ryšį tarp dviejų intervalinių arba santykinių kintamųjų. Prielaidos: linearumas, bivariate normalumas, homoskedastiškumas, mažai išskirtinių reikšmių (outliers).
- Spearmano rango koreliacija — neparametrinis rodiklis, pagrįstas reikšmių rangais. Tinka, jei ryšys yra monotoniškas, bet nelinijinis, arba duomenyse yra išskirtinių verčių.
- Kendallo tau — dar vienas rango pagrindu veikiantis rodiklis; dažnai stabilus mažesnėms imtims ir duomenims su daug vietų su rištais rangais (ties).
- Point-biserial ir phi koeficientai — koreliacijos tarp vieno dichotominio (dvivarianto) ir vieno intervalinio kintamojo arba tarp dviejų dichotominių kintamųjų.
- Autokoreliacija ir kryžminė koreliacija — laiko eilučių analizėje matuoja priklausomybę tarp taškų su laiko delsos (lag) arba tarp dviejų skirtingų laiko eilučių.
Matavimo metodai ir formulės
Pearsono koreliacijos formulė (apibendrintas vaizdas):
r = sum((xi - x̄)(yi - ȳ)) / sqrt(sum((xi - x̄)^2) * sum((yi - ȳ)^2))
Spearmano koreliacija apskaičiuojama kaip Pearson koeficiento taikymas rangams arba naudojant specialią formulę, kai nėra daug rištų rangų.
Statistinė reikšmė dažnai tikrinama hipotezės testu (pvz., t-testas Pearson r atveju): t = r * sqrt((n-2)/(1-r^2)), kur n — stebėjimų skaičius.
Vizualizacijos ir diagnostika
- Sklaidos (scatter) grafikas — pirmas žingsnis: leidžia pamatyti linijinį ar nelinijinį ryšį, išskirtines reikšmes ir klasterius.
- Geriausio atitikimo (regresijos) linija — pabrėžia bendrą kryptį.
- Korrelacijų matrica ir heatmap — patogu analizuoti daugelio kintamųjų tarpusavio ryšius.
- Correlogram — naudingas laiko eilučių autokoreliacijai.
Ribojimai ir atsargumo priemonės
- Priežastinis ryšys — koreliacija nereiškia priežastingumo. Reikia papildomų tyrimų (eksperimentų, laiko sekos analizės, instrumentinių kintamųjų), kad būtų pagrįstas priežastinis teiginys.
- Trečiasis veiksnys (konfuderis) — keliami spurious correlations, kai koreliacija atsiranda dėl bendros priežasties.
- Išskirtinės reikšmės (outliers) gali reikšmingai paveikti Pearson koeficientą; Spearmano ar Kendall metodai yra atsparesni.
- Nelinijiniai ryšiai gali būti nepastebimi naudojant tik Pearson r; tada geriau naudoti rango metodus arba modeliuoti nelinijinį ryšį (polinominė regresija, GLM, GAM).
- Simpsono paradoksas — bendras ryšys gali skirtis nuo posistemų ryšių; būtina analizuoti grupes atskirai.
Kaip tinkamai pateikti rezultatus
Renkantis, ką pranešti, rekomenduojama pateikti:
- koreliacijos koeficientą (pvz., r = 0.42),
- stebėjimų skaičių (n),
- statistinę reikšmę (p reikšmė) ir pageidautina konfidencijos intervalą (pvz., 95% CI),
- grafiką (sklaidos diagramos) bei trumpą paaiškinimą, ar prielaidos buvo patikrintos (pvz., linearumo, išskirtinių verčių tikrinimas).
Praktiniai patarimai ir įrankiai
- Patikrinkite duomenis grafiškai prieš skaičiuodami koreliacijas.
- Jei įtariate nelinijinį ryšį, naudokite Spearmano ar nelinijines modelių priemones.
- Atminkite, kad didelė imtis gali padaryti statistiškai reikšmingu net labai mažą koreliaciją — vertinkite ir praktišką reikšmę.
- Populiarios priemonės: R (funkcijos cor(), cor.test()), Python (numpy.corrcoef, scipy.stats.pearsonr/spearmanr), statistinės programos (SPSS, Stata).
Pavyzdžiai
1) Teigiamas ryšys: aukštesnis išsilavinimas dažnai siejamas su didesniu atlyginimu — teigiama koreliacija, tačiau ne visuomet tiesioginis priežastingumas dėl daugelio veiksnių.
2) Neigiamas ryšys: laikas, praleistas miegoje, gali būti neigiamai koreliuojamas su nuovargiu darbo dienos metu (daugiau miego — mažiau nuovargio).
3) Klaidinantis pavyzdys: ledų pardavimai gali koreliuoti su išorės temperatūra — abu reaguoja į trečią veiksnį (sezoną), todėl neturėtume sakyti, kad ledai sukelia karštį.
Apibendrinant, koreliacija yra galinga priemonė ryšiams aptikti ir kvantifikuoti, tačiau ją būtina interpretuoti atsargiai, patikrinti prielaidas ir papildyti tolimesne analize prieš darydami priežastinius teiginius.
