Spearmano ranginis koreliacijos koeficientas: apibrėžimas ir formulė

Matematikoje ir statistikoje Spearmano ranginės koreliacijos koeficientas yra koreliacijos matas, pavadintas jo kūrėjo Charleso Spearmano vardu. Trumpai jis rašomas graikiška raide rho ( ρ {\displaystyle \rho }{\displaystyle \rho } ) arba kartais r s {\displaystyle r_{s}}. {\displaystyle r_{s}}. Tai skaičius, rodantis, kaip glaudžiai susiję du duomenų rinkiniai. Jį galima naudoti tik duomenims, kuriuos galima išdėstyti eilės tvarka, pavyzdžiui, nuo didžiausio iki mažiausio.

Apibrėžimas ir prasmė

Spearmano ranginis koreliacijos koeficientas matuoja monotonišką priklausomybę tarp dviejų kintamųjų — t. y. ar vieno kintamojo vertės linkus didėti arba mažėti atitinka kito kintamojo vertes augimą arba mažėjimą. Skirtingai nei Pearsono koreliacija, Spearmano koeficientas ne reikalauja linikinės sąsajos ar normalios skirstinio formos; pakanka, kad ryšys būtų monotoniškas (nuosekliai didėjantis arba mažėjantis).

Formulė

Bendroji r s formulė {\displaystyle r_{s}}{\displaystyle r_{s}} yra ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}}. {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

Šioje formulėje:

  • n — stebinių skaičius (porų skaičius),
  • d — atskiros stebinių poros skirtumas tarp jų rangų (d = rangas X − rangas Y),
  • ∑ d² — kvadratų skirtumų suma per visas poras.

Vertinimas ir reikšmė

  • ρ = +1 reiškia tobulą monotoninį teigiamą ryšį (kai X auga, Y visuomet auga).
  • ρ = −1 reiškia tobulą monotoninį neigiamą ryšį (kai X auga, Y visuomet mažėja).
  • ρ ≈ 0 reiškia, kad monotoniškumo požymių nėra (nėra nuoseklio didėjimo ar mažėjimo ryšio).

Kaip apskaičiuoti — žingsniai

  1. Rūšiuokite kiekvieną kintamąjį atskirai ir suteikite rangus (nuo 1 iki n).
  2. Jeigu yra lygių verčių (ties), priskirkite joms vidutinį (aritmetinį) rangą toje grupėje.
  3. Kiekvienai porai apskaičiuokite d = rangas_X − rangas_Y ir d².
  4. Suskaičiuokite ∑ d² ir įstatykite į formulę ρ = 1 − (6∑ d²) / (n(n² − 1)).

Kaip elgtis su lygiomis reikšmėmis (ties)

Jei du ar daugiau stebinių turi vienodas reikšmes viename kintamajame, jiems priskiriami vidutiniai rangai. Alternatyvus, ir dažnai patogesnis, būdas — priskirti rangus visiems duomenims (naudojant vidurkius ten, kur yra tiesų) ir tada apskaičiuoti paprastą Pearsono koreliaciją tarp šių rangų; rezultatas bus Spearmano koeficientas. Kai tiesų yra daug, formulės su korekcijos terminais gali būti naudojamos, bet praktikoje dažniausiai apskaičiavimas per rangus yra paprastesnis ir patikimas.

Pavyzdys (žingsnis po žingsnio)

Turime 5 kompiuterių duomenis: kaina ir sparta. Pirmiausia kiekvienam kintamajam priskiriame rangus, tada apskaičiuojame skirtumus ir kvadratus.

  • Rangai X (kaina): 1, 2, 3, 4, 5
  • Rangai Y (sparta): 1, 3, 2, 5, 4
  • d = X_rank − Y_rank: 0, −1, 1, −1, 1
  • d²: 0, 1, 1, 1, 1 → ∑ d² = 4
  • ρ = 1 − (6·4) / (5(25 − 1)) = 1 − 24 / 120 = 1 − 0,2 = 0,8

Taigi ρ = 0,8 rodo stiprų teigiamą monotonišką ryšį tarp kainos ir spartos šiame pavyzdyje.

Statistinė reikšmė ir testavimas

Norint patikrinti, ar gautas ρ statistiškai reikšmingas (t. y. ar ryšys nėra atsitiktinis), galima naudoti kelis metodus:

  • Mažiems imties dydžiams taikomi tikslūs signifikavimo testai (lentelės arba permutacijos testai).
  • Didesnėms imtims dažnai naudojama approx. t-statistika: t = ρ √((n−2) / (1−ρ²)), kuri maždaug seka t-skirstinį su n−2 laisvės laipsniais (kai n pakankamai didelis).
  • Permutacijų testai arba bootstrap metodai suteikia tikslesnį p‑vertės įvertinimą, ypač kai pasiskirstymo prielaidoms nepatikima.

Kada naudoti Spearmano koeficientą ir jo privalumai

  • Jei kintamieji yra ordininiai arba duomenys nėra normaliai pasiskirstę.
  • Jei ryšys yra monotoniškas, bet ne būtinai linijinis.
  • Jis yra atsparesnis išimtinėms reikšmėms (outliers) nei Pearsono koreliacija.
  • Lengvai apskaičiuojamas rankų metodu ir interpretuojamas.

Trūkumai ir apribojimai

  • Jei ryšys nėra monotoniškas (pvz., U formos), ρ gali būti mažas arba nulinis, nors yra aiški nelineariška priklausomybė.
  • Esant daug lygių reikšmių, prarandama informacija; reikia atidžiai taikyti korekcijas arba naudoti Pearsoną ant rangų.

Pavyzdžiui, jei turite duomenis apie skirtingų kompiuterių brangumą ir duomenis apie kompiuterių spartą, galite nustatyti, ar jie yra susiję ir kaip glaudžiai jie susiję, naudodami r s {\displaystyle r_{s}} {\displaystyle r_{s}}.

Apibendrinant: Spearmano ranginis koreliacijos koeficientas yra patikimas ir paprastas būdas įvertinti monotonišką priklausomybę tarp dviejų kintamųjų, ypač kai duomenys nėra idealiai atitinkantys Pearsono prielaidas arba kai turime ordinius duomenis.

Dirbti su juo

Pirmas žingsnis

Norėdami apskaičiuoti r s {\displaystyle r_{s}}{\displaystyle r_{s}}, pirmiausia turite įvertinti kiekvieną duomenų vienetą. Naudosime pavyzdį iš įvado apie kompiuterius ir jų greitį.

Taigi, kompiuteris, kurio kaina mažiausia, būtų 1 vietoje. Aukščiau esantis už jį užimtų 2 vietą. Toliau viskas kils aukštyn, kol bus išrikiuoti visi kompiuteriai. Tai reikia daryti su abiem duomenų rinkiniais.

KOMPIUTERIS

Kaina ($)

R a n k 1 {\displaystyle Rank_{1}} {\displaystyle Rank_{1}}

Greitis (GHz)

R a n k 2 {\displaystyle Rank_{2}} {\displaystyle Rank_{2}}

A

200

1

1.80

2

B

275

2

1.60

1

C

300

3

2.20

4

D

350

4

2.10

3

E

600

5

4.00

5

Antras žingsnis

Toliau turime rasti skirtumą tarp šių dviejų rangų. Tuomet skirtumą padauginkite iš savęs, o tai vadinama kvadratu. Skirtumas vadinamas d {\displaystyle d}{\displaystyle d} , o skaičius, kurį gausite, kai d {\displaystyle d}{\displaystyle d} pakelsite kvadratu, vadinamas d 2 {\displaystyle d^{2}}. {\displaystyle d^{2}}.

R a n k 1 {\displaystyle Rank_{1}} {\displaystyle Rank_{1}}

R a n k 2 {\displaystyle Rank_{2}} {\displaystyle Rank_{2}}

d {\displaystyle d} {\displaystyle d}

d 2 {\displaystyle d^{2}} {\displaystyle d^{2}}

1

2

-1

1

2

1

1

1

3

4

-1

1

4

3

1

1

5

5

0

0

Trečiasis žingsnis

Suskaičiuokite, kiek duomenų turime. Šie duomenys turi rangus nuo 1 iki 5, taigi turime 5 duomenis. Šis skaičius vadinamas n {\displaystyle n}n .

Ketvirtas žingsnis

Galiausiai panaudokite viską, ką iki šiol išsiaiškinome pagal šią formulę: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}} {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

∑ d 2 {\displaystyle \sum d^{2}}{\displaystyle \sum d^{2}} reiškia, kad imame visų skaičių, kurie buvo stulpelyje d 2 {\displaystyle d^{2}}, sumą. {\displaystyle d^{2}}. Taip yra todėl, kad ∑ {\displaystyle \sum } {\displaystyle \sum }reiškia bendrą sumą.

Taigi ∑ d 2 {\displaystyle \sum d^{2}}{\displaystyle \sum d^{2}} yra 1 + 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1}{\displaystyle 1+1+1+1}, t. y. 4. Formulėje sakoma, kad reikia padauginti iš 6, t. y. 24.

n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} {\displaystyle n(n^{2}-1)}yra 5 × ( 25 - 1 ) {\displaystyle 5 kartų (25-1)}, {\displaystyle 5\times (25-1)}t. y. 120.

Taigi, norėdami sužinoti r s {\displaystyle r_{s}} {\displaystyle r_{s}}paprasčiausiai padarome 1 - 24 120 = 0,8 {\displaystyle 1-{{\cfrac {24}{120}}=0,8}{\displaystyle 1-{\cfrac {24}{120}}=0.8} .

Todėl Spearmano ranginės koreliacijos koeficientas šiam duomenų rinkiniui yra 0,8.

Ką reiškia skaičiai

r s {\displaystyle r_{s}}{\displaystyle r_{s}} visada pateikia atsakymą nuo -1 iki 1. Skaičiai tarp jų yra tarsi skalė, kurioje -1 reiškia labai stiprų ryšį, 0 - jokio ryšio, o 1 - taip pat labai stiprų ryšį. Skirtumas tarp 1 ir -1 yra tas, kad 1 yra teigiamas ryšys, o -1 yra neigiamas ryšys. Duomenų, kurių r s {\displaystyle r_{s}}{\displaystyle r_{s}} reikšmė yra -1, grafikas atrodytų kaip parodytasis, tik linija ir taškai eitų iš viršaus kairės į apačią dešinę.

Pavyzdžiui, pirmiau pateiktų duomenų atveju r s {\displaystyle r_{s}}{\displaystyle r_{s}} buvo 0,8. Taigi tai reiškia, kad egzistuoja teigiama koreliacija. Kadangi jis artimas 1, tai reiškia, kad ryšys tarp dviejų duomenų rinkinių yra stiprus. Taigi galime sakyti, kad šie du duomenų rinkiniai yra susiję ir kyla kartu. Jei jis būtų -0,8, galėtume sakyti, kad jie yra susiję ir vienam kylant aukštyn, kitas krenta žemyn.

Zoom

Ši sklaidos diagrama turi teigiamą koreliaciją. R s {\displaystyle r_{s}}{\displaystyle r_{s}} reikšmė būtų artima 1 arba 0,9. Raudona linija yra geriausio atitikimo linija.

Jei du skaičiai yra vienodi

Kartais klasifikuojant duomenis pasitaiko, kad du ar daugiau skaičių yra vienodi. Kai taip atsitinka r s {\displaystyle r_{s}} {\displaystyle r_{s}}, imame vienodų rangų vidurkį arba vidurkį. Šie rangai vadinami lygiaisiais rangais. Norėdami tai padaryti, susietus skaičius ranguojame taip, tarsi jie nebūtų susieti. Tada sudedame visus rangus, kuriuos jie turėtų, ir padalijame iš jų skaičiaus. Pavyzdžiui, tarkime, reitinguojame, kaip gerai skirtingi žmonės atliko rašybos testą.

Testo rezultatas

Rangas

Rangas (su susietas)

4

1

1

6

2

2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+3+4}{3}}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

6

3

2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+3+4}{3}}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

6

4

2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+3+4}{3}}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

8

5

5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5} {\displaystyle {\tfrac {5+6}{2}}=5.5}

8

6

5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5} {\displaystyle {\tfrac {5+6}{2}}=5.5}

Šie skaičiai naudojami lygiai taip pat, kaip ir įprasti rangai.

Susiję puslapiai

Klausimai ir atsakymai

Klausimas: Kas yra Spearmano ranginės koreliacijos koeficientas?


A: Spearmano ranginės koreliacijos koeficientas yra koreliacijos matas, kuris parodo, kaip glaudžiai susiję du duomenų rinkiniai. Jį galima naudoti tik duomenims, kuriuos galima išdėstyti eilės tvarka, pavyzdžiui, nuo didžiausio iki mažiausio.

K: Kas sukūrė Spearmano ranginės koreliacijos koeficientą?


A: Spearmano ranginės koreliacijos koeficientą sukūrė Charlesas Spearmanas.

K: Kaip užrašoma bendroji Spearmano ranginės koreliacijos koeficiento formulė?


A: Bendroji Spearmano ranginės koreliacijos koeficiento formulė užrašoma taip: ρ = 1 - 6∑d2/n(n2-1).

K: Kada reikia naudoti Spearmano ranginės koreliacijos koeficientą?


A: Spearmano ranginės koreliacijos koeficientą turėtumėte naudoti, kai norite sužinoti, kaip glaudžiai susiję du duomenų rinkiniai ir ar jie apskritai susiję.

K: Su kokio tipo duomenimis jis veikia?


A: Jis tinka bet kokio tipo duomenims, kuriuos galima išdėstyti eilės tvarka, pavyzdžiui, nuo didžiausio iki mažiausio.

K: Ar galite pateikti pavyzdį, kur galėtumėte naudoti šią priemonę?



A: Pavyzdys, kur galėtumėte naudoti šią priemonę, galėtų būti toks: jei turite duomenis apie tai, kokie brangūs yra skirtingi kompiuteriai, ir duomenis apie tai, kokie greiti yra kompiuteriai, tada, naudodami r_s, galėtumėte pamatyti, ar jie yra susiję ir kaip glaudžiai jie yra susiję.

AlegsaOnline.com - 2020 / 2025 - License CC3