Într-o zi la prânz, o tânără mânca un bol mare de înghețată, iar un coleg de facultate s-a apropiat de ea și i-a spus: „Mai bine ai fi atent, există un statisticcorelație între înghețată și înec. ” Ea trebuie să-i fi aruncat o privire confuză, pe măsură ce el a mai elaborat. „Zilele cu cele mai multe vânzări de înghețată văd și cele mai multe persoane înecate.”
Când a terminat înghețata, cei doi colegi au discutat despre faptul că doar pentru că o variabilă este asociată statistic cu alta, nu înseamnă că una este cauza celuilalt. Uneori, în fundal există o variabilă care se ascunde. În acest caz, ziua anului se ascunde în date. În zilele călduroase de vară se vând mai multe înghețate decât cele de iarnă. Mai multe persoane înoată vara și, prin urmare, mai multe înec în vară decât în timpul iernii.
Feriți-vă de variabilele de falsificare
Anecdota de mai sus este un exemplu primordial al ceea ce este cunoscut ca o variabilă ascunzătoare. După cum sugerează și numele său, o variabilă ascunsă poate fi evazivă și dificil de detectat. Atunci când descoperim că două seturi de date numerice sunt puternic corelate, ar trebui să ne întrebăm întotdeauna: „Ar putea exista altceva care provoacă această relație?”
Următoarele sunt exemple de corelație puternică cauzată de o variabilă ascunzătoare:
- Numărul mediu de calculatoare pe persoană într-o țară și speranța medie de viață a acelei țări.
- Numărul pompierilor la un incendiu și daunele provocate de incendiu.
- Înălțimea unui elev de școală elementară și nivelul său de citire.
În toate aceste cazuri, relația dintre variabile este una foarte puternică. Acest lucru este de obicei indicat de a coeficient de corelație care are o valoare apropiată de 1 sau -1. Nu contează cât de aproape este acest coeficient de corelație de 1 sau de -1, această statistică nu poate arăta că o variabilă este cauza celeilalte variabile.
Detectarea variabilelor de falsificare
Prin natura lor, variabilele ascunse sunt dificil de detectat. O strategie, dacă este disponibilă, este de a examina ce se întâmplă cu datele în timp. Acest lucru poate dezvălui tendințele sezoniere, cum ar fi exemplu de înghețată, care se întunecă atunci când datele sunt reunite. O altă metodă este să te uiți valorile extreme și încercați să determinați ce le face diferite decât celelalte date. Uneori, acest lucru oferă o idee despre ceea ce se întâmplă în spatele scenei. Cel mai bun curs de acțiune este de a fi proactiv; ipoteze de întrebare și experimente de proiectare atent.
De ce conteaza?
În scenariul de deschidere, să presupunem că un congresist, bineînțeles, dar neinformat din punct de vedere statistic, a propus să scoată în afara legii toate înghețata pentru a preveni înecarea. Un astfel de proiect de lege ar deranja mari segmente ale populației, ar forța mai multe companii în faliment și ar elimina mii de locuri de muncă pe măsură ce industria de înghețată a țării a fost închisă. În ciuda celor mai bune intenții, acest proiect de lege nu ar reduce numărul de decese înecate.
Dacă acest exemplu pare un pic prea îndepărtat, luați în considerare următoarele, care s-au întâmplat de fapt. La începutul anilor 1900, medicii au observat că unii sugari mureau misterios în somn din cauza problemelor respiratorii percepute. Aceasta a fost numită moarte de pătuț și este acum cunoscută sub numele de SIDS. Un lucru care a ieșit din autopsii efectuate la cei care au murit din cauza SIDS a fost un timus mărit, o glandă localizată în piept. Din corelația glandelor timus extinse la bebelușii SIDS, medicii au presupus că un timus anormal de mare a provocat respirația și moartea necorespunzătoare.
Soluția propusă a fost să micșoreze timusul cu radiații mari sau să îndepărteze glanda în întregime. Aceste proceduri au avut o rată mare de mortalitate și au condus la chiar mai multe decese. Ceea ce este trist este că aceste operațiuni nu trebuiau efectuate. Cercetările ulterioare au arătat că acești medici au greșit în ipotezele lor și că timusul nu este responsabil pentru SIDS.
Corelația nu implică cauzare
Cele de mai sus ar trebui să ne facă o pauză atunci când ne gândim că probele statistice sunt folosite pentru a justifica lucruri precum regimurile medicale, legislația și propunerile educaționale. Este important să se lucreze bine în interpretarea datelor, mai ales dacă rezultatele care implică corelații vor afecta viața altora.
Când cineva afirmă, „Studiile arată că A este o cauză a lui B, iar unele statistici o rezervă,” fii gata răspunde, „corelația nu implică cauzalitate”. Fii mereu în căutarea a ceea ce se ascunde sub date.