Care este corelația în statistici?

Uneori, datele numerice vin în perechi. Poate că paleontolog măsoară lungimile femurului (osul piciorului) și humerus (osul brațului) în cinci fosile din aceeași specie de dinozaur. Ar putea avea sens să luăm în considerare lungimile brațului separat de lungimea picioarelor și să calculăm lucruri precum media sau abaterea standard. Dar dacă cercetătorul este curios să știe dacă există o relație între aceste două măsurători? Nu este suficient să privești doar brațele separat de picioare. În schimb, paleontologul trebuie să împerecheze lungimile oaselor pentru fiecare schelet și să folosească o zonă de statistici cunoscut sub numele de corelație.

Ce este corelația? În exemplul de mai sus, să presupunem că cercetătorul a studiat datele și a ajuns la nu foarte surprinzător rezultă că fosilele dinozaurilor cu brațe mai lungi aveau și picioare mai lungi, și fosile cu brațe mai scurte picioarele mai scurte. O diagramă de distribuție a datelor a arătat că punctele de date au fost grupate aproape în linie dreaptă. Cercetătorul ar spune apoi că există o relație liniară puternică sau

instagram viewer
corelație, între lungimile oaselor brațului și oaselor picioarelor fosilelor. Este nevoie de alte lucrări pentru a spune cât de puternică este corelația.

Corelarea și Scatterplots

Deoarece fiecare punct de date reprezintă două numere, o diagramă de dispersie bidimensională este de mare ajutor în vizualizarea datelor. Să presupunem că de fapt avem mâna pe datele dinozaurului și cele cinci fosile au următoarele măsurători:

  1. Femur 50 cm, humerus 41 cm
  2. Femur 57 cm, humerus 61 cm
  3. Femur 61 cm, humerus 71 cm
  4. Femur 66 cm, humerus 70 cm
  5. Femur 75 cm, humerus 82 cm

În graficul de mai sus rezultă o diagramă de dispersie a datelor, cu măsurarea femurului pe direcția orizontală și măsurarea humerusului în direcția verticală. Fiecare punct reprezintă măsurătorile unuia dintre schelete. De exemplu, punctul din partea stângă jos corespunde scheletului # 1. Punctul din dreapta sus este scheletul # 5.

Se pare că am putea trasa o linie dreaptă care ar fi foarte aproape de toate punctele. Dar cum putem spune cu siguranță? Apropierea este în ochiul privitorului. De unde știm că definițiile noastre despre „apropiere” se potrivesc cu altcineva? Există vreo cale prin care să putem cuantifica această apropiere?

Coeficient de corelație

Pentru a măsura obiectiv cât de apropiate sunt datele de-a lungul unei linii drepte, coeficientul de corelație vine la salvare. coeficient de corelație, notat de obicei r, este un număr real între -1 și 1. Valoarea a r măsoară puterea unei corelații bazate pe o formulă, eliminând orice subiectivitate în proces. Există mai multe orientări de care trebuie să țineți cont atunci când interpretați valoarea r.

  • Dacă r = 0 atunci punctele sunt o jumătate completă, fără nicio relație liniară între date.
  • Dacă r = -1 sau r = 1 atunci toate punctele de date se aliniază perfect pe o linie.
  • Dacă r este o altă valoare decât aceste extreme, atunci rezultatul este o potrivire mai puțin decât perfectă a unei linii drepte. În seturile de date din lumea reală, acesta este cel mai frecvent rezultat.
  • Dacă r este pozitiv, atunci linia urcă cu un panta pozitivă. Dacă r este negativ, atunci linia coboară cu panta negativă.

Calculul coeficientului de corelație

Formula coeficientului de corelație r este complicat, așa cum se poate vedea aici. Ingredientele formulei sunt mijloacele și abaterile standard ale ambelor seturi de date numerice, precum și numărul de puncte de date. Pentru majoritatea aplicațiilor practice r este obositor să calculez de mână. Dacă datele noastre au fost introduse într-un calculator sau un program de foi de calcul cu comenzi statistice, atunci există de obicei o funcție încorporată de calculat r.

Limitări ale corelației

Deși corelația este un instrument puternic, există unele limitări în utilizarea acesteia:

  • Corelația nu ne spune complet totul despre date. Mijloacele și abaterile standard continuă să fie importante.
  • Datele pot fi descrise printr-o curbă mai complicată decât o linie dreaptă, dar acest lucru nu va apărea în calculul r.
  • Valorile exterioare influențează puternic coeficientul de corelație. Dacă observăm date relevante în datele noastre, ar trebui să fim atenți la concluziile pe care le tragem din valoarea r.
  • Doar pentru că două seturi de date sunt corelate, nu înseamnă că una este cauză de celălalt.