Simpsono paradoksas yra statistikos paradoksas. Jis pavadintas britų statistiko Edvardo H. Simpsono, kuris pirmasis jį aprašė 1951 m., vardu. Labai panašų efektą 1899 m. aprašė statistikas Karlas Pearsonas. 1903 m. jį aprašė Udny Yule'as. Kartais jis vadinamas Yule-Simpsono efektu. Nagrinėjant grupių statistinius balus, šie balai gali kisti priklausomai nuo to, ar grupės nagrinėjamos po vieną, ar sujungtos į didesnę grupę. Šis atvejis dažnai pasitaiko socialinių mokslų ir medicinos statistikoje. Jis gali suklaidinti žmones, jei priežastiniam ryšiui paaiškinti naudojami dažnių duomenys. Kiti šio paradokso pavadinimai: apvertimo paradoksas ir amalgamacijos paradoksas.

Kas tai reiškia paprastai?

Simpsono paradoksas reiškia situaciją, kai tam tikros savybės (pvz., sėkmės procentas) yra aukštesnės vienoje kategorijoje tiek A, tiek B grupėse atskirai, bet kai duomenys sujungiami, santykis apsiverčia ir atvirkščiai. Kitaip tariant, kondicionuotos (grupiškos) proporcijos ir bendra (agreguota) proporcija gali rodyti priešingas tendencijas.

Mechanizmas ir priežastys

  • Slapti kintamieji (lurking arba confounding variables): kintamasis, susijęs tiek su grupės priklausymu, tiek su rezultatu, gali pakeisti ryšio pobūdį. Jei šis kintamasis netinkamai kontroliuojamas, agreguotuose duomenyse matysime klaidingą rezultatą.
  • Svaros (sąlyčių) skirtumai: kai skirtingose grupėse yra labai skirtingi imčių dydžiai, svertinis vidurkis gali „perkrauti“ bendrą rodiklį ir pakeisti krypį.
  • Atskiri klausimai: dažnai agreguotas rodiklis atsako į kitą klausimą nei segmentų (pvz., „Kas geriau apskritai?“ vs „Kas geriau kiekvienoje rizikos grupėje?“).

Skaičiavimo pavyzdys

Tarkime, turime du gydymo būdus A ir B, ir du pacientų tipus (grupes): X ir Y. A geriau abuose segmentuose, bet B geriau agreguotai:

  • Grupė X: A – 9 iš 10 sėkmių (90%); B – 80 iš 100 sėkmių (80%). (A geriau)
  • Grupė Y: A – 50 iš 100 sėkmių (50%); B – 4 iš 10 sėkmių (40%). (A geriau)
  • Agreguotai: A – (9+50)/(10+100) = 59/110 ≈ 53,6%; B – (80+4)/(100+10) = 84/110 ≈ 76,4%. (B geriau)

Šiame pavyzdyje A turi didesnį sėkmės procentą kiekvienoje atskiroje grupėje, tačiau B laimi pagal bendrą (agreguotą) rodiklį dėl to, kad B turi daug didesnę imtį toje grupėje, kur jo sėkmės procentas yra palyginti aukštas.

Ženklai, kad susiduriate su Simpsono paradoksu

  • Skirtingos tendencijos tarp subgrupių (pvz., lyčių, amžiaus ar ligos sunkumo kategorijų).
  • Dideli imčių dydžių skirtumai tarp grupių.
  • Konfliktas tarp marginalinių (bendrų) ir kondicionuotų (grupinių) rezultatų.

Kaip išvengti klaidinančių išvadų

  • Visada tikrinkite subgrupes — pateikite rezultatus pagal svarbius kintamuosius (pvz., amžius, sunkumas, institucija).
  • Naudokite daugiamatę analizę (regresiją, modelius su kovariatais) tam, kad kontroliuotumėte galimus trukdžius (confounders).
  • Praktikuokite priežastinį mąstymą (causal inference): aiškiai nusakykite, kokį klausimą užduodate — ar domitės asociacija, ar priežastiniu poveikiu.
  • Naudokite DAG'us (causal diagrams) ir metodus, kaip propensity score, kai dirbate su observaciniais duomenimis.
  • Pateikite ir agreguotus, ir segmentuotus rezultatus — skaitytojas turi matyti abi perspektyvas.
  • Randomizuoti tyrimai (kai įmanoma) dažnai geriausiai eliminuoja šio tipo klaidas.

Praktinė reikšmė

Simpsono paradoksas turi realių pasekmių politikoje, medicinos gydymo pasirinkimuose, įdarbinimo ir diskriminacijos tyrimuose, verslo analizėse ir kt. Netinkamai interpretuoti agreguoti duomenys gali lemti klaidingus sprendimus — pvz., atmesti veiksmingą gydymą arba iškreipti diskriminacijos analizę.

Santrauka

  • Simpsono paradoksas nėra klaida skaičiavimuose — tai priminimas, kad duomenų analizėje svarbu atsižvelgti į struktūrą ir galimus slaptus veiksnius.
  • Analizės metu visada verta patikrinti, ar rezultatų poslinkis neišryškėja dėl agregavimo, ir aiškiai atskirti asociaciją nuo priežastinio ryšio.
  • Aiški ataskaita apie subgrupes, imties dydžius ir koreguojančias kintamąsias sumažina riziką priimti klaidingas išvadas.