Care este paradoxul lui Simpson în statistică?

A paradox este o afirmație sau un fenomen care la suprafață pare contradictoriu. Paradoxurile ajută la dezvăluirea adevărului care stă la baza suprafeței a ceea ce pare absurd. În domeniul statisticilor, paradoxul lui Simpson demonstrează ce tipuri de probleme rezultă din combinarea datelor din mai multe grupuri.

Cu toate datele, trebuie să fim atenți. De unde a venit? Cum a fost obținut? Și ce se spune cu adevărat? Acestea sunt toate întrebările bune pe care ar trebui să ni le punem atunci când sunt prezentate date. Cazul foarte surprinzător al paradoxului lui Simpson ne arată că, uneori, ceea ce par să spună datele nu este chiar cazul.

O imagine de ansamblu a paradoxului

Să presupunem că observăm mai multe grupuri și stabilim o relație sau corelație pentru fiecare dintre aceste grupuri. Paradoxul lui Simpson spune că atunci când combinăm toate grupurile împreună și analizăm datele sub formă agregată, corelația pe care am observat-o înainte se poate inversa. Acest lucru se datorează cel mai adesea unor variabile ascunse care nu au fost luate în considerare, dar uneori se datorează valorilor numerice ale datelor.

instagram viewer

Exemplu

Pentru a înțelege puțin mai mult paradoxul lui Simpson, să ne uităm la următorul exemplu. Într-un anumit spital, există doi chirurgi. Chirurgul A operează pe 100 de pacienți, iar 95 supraviețuiesc. Chirurgul B operează pe 80 de pacienți și 72 supraviețuiesc. Avem în vedere că efectuarea unei intervenții chirurgicale în acest spital și trăirea prin operație este ceva important. Vrem să alegem mai bine dintre cei doi chirurgi.

Analizăm datele și le folosim pentru a calcula ce procent de pacienți de chirurg A au supraviețuit operațiilor lor și să le comparăm cu rata de supraviețuire a pacienților chirurgului B.

  • 95 de pacienți din 100 au supraviețuit cu chirurgul A, deci 95/100 = 95% dintre ei au supraviețuit.
  • 72 de pacienți din 80 au supraviețuit cu chirurgul B, deci 72/80 = 90% dintre ei au supraviețuit.

Din această analiză, ce chirurg ar trebui să alegem să ne trateze? S-ar părea că chirurgul A este cel mai sigur pariu. Dar este adevărat acest lucru?

Ce-ar fi dacă am face unele cercetări suplimentare asupra datelor și am constata că inițial spitalul a avut în vedere două tipuri diferite de intervenții chirurgicale, dar apoi au reunit toate datele împreună pentru a raporta la fiecare dintre acestea chirurgi. Nu toate intervențiile chirurgicale sunt egale, unele au fost considerate intervenții chirurgicale de urgență cu risc ridicat, în timp ce altele au o natură mai de rutină programată în prealabil.

Dintre cei 100 de pacienți pe care i-a tratat chirurgul A, 50 aveau risc ridicat, dintre care trei au murit. Celelalte 50 au fost considerate de rutină, iar dintre acestea 2 au murit. Aceasta înseamnă că, pentru o intervenție chirurgicală de rutină, un pacient tratat de chirurg A are o rată de supraviețuire de 48/50 = 96%.

Acum analizăm mai atent datele privind chirurgul B și descoperim că din 80 de pacienți, 40 au avut un risc ridicat, dintre care șapte au murit. Celelalte 40 au fost de rutină și doar unul a murit. Aceasta înseamnă că un pacient are o rată de supraviețuire de 39/40 = 97,5% pentru o intervenție chirurgicală de rutină cu chirurgul B.

Acum care chirurg pare mai bun? Dacă chirurgia dvs. trebuie să fie una de rutină, atunci chirurgul B este de fapt cel mai bun chirurg. Dacă ne uităm la toate intervențiile chirurgicale efectuate de chirurgi, A este mai bună. Acest lucru este destul de contraincetiv. În acest caz, variabila ascunzătoare a tipului de intervenție chirurgicală afectează datele combinate ale chirurgilor.

Istoria paradoxului lui Simpson

Paradoxul lui Simpson poartă numele lui Edward Simpson, care a descris pentru prima dată acest paradox în lucrarea din 1951 „Interpretarea interacțiunii în tabelele de urgență” din Jurnalul Societății Regale de Statistică. Pearson și Yule au observat fiecare un paradox similar cu jumătate de secol mai devreme decât Simpson, astfel încât paradoxul lui Simpson este denumit uneori și efectul Simpson-Yule.

Există multe aplicații largi ale paradoxului în domenii la fel de diverse precum statisticile sportive și date despre șomaj. De fiecare dată când datele sunt agregate, aveți grijă să apară acest paradox.