De multe ori în studiul statistici este important să faceți conexiuni între diferite subiecte. Vom vedea un exemplu în acest sens în care panta liniei de regresie este direct legată de coeficient de corelație. Deoarece aceste concepte implică linii drepte, este firesc să ne punem întrebarea: „Cum sunt coeficientul de corelație și linie cel puțin pătrată legate de?"
În primul rând, vom analiza câteva aspecte referitoare la ambele subiecte.
Detalii privind corelația
Este important să ne amintim detaliile referitoare la coeficientul de corelație, care este notat cu r. Această statistică este folosită atunci când ne-am asociat date cantitative. Dintr-un scatterplot de date în pereche, putem căuta tendințe în distribuția generală a datelor. Unele date asociate prezintă un model liniar sau liniar. Dar, în practică, datele nu se încadrează exact pe linie dreaptă.
Mai multe persoane care se uită la fel grafică difuzată de date în pereche nu ar fi de acord cu privire la cât de aproape a fost de a arăta o tendință liniară generală. Până la urmă, criteriile noastre pentru acest lucru pot fi oarecum subiective. Scara pe care o folosim ne-ar putea afecta și percepția asupra datelor. Din aceste motive și multe altele, avem nevoie de un fel de măsură obiectivă pentru a spune cât de apropiate sunt datele noastre împerecheate de a fi liniare. Coeficientul de corelație realizează acest lucru pentru noi.
Câteva fapte de bază despre r include:
- Valoarea a r variază între orice număr real de la -1 la 1.
- Valori ale r aproape de 0 implică faptul că există o relație liniară mică sau deloc între date.
- Valori ale r aproape de 1 implică faptul că există o relație liniară pozitivă între date. Acest lucru înseamnă că, ca X crește asta y crește de asemenea.
- Valori ale r apropiat de -1 înseamnă că există o relație liniară negativă între date. Acest lucru înseamnă că, ca X crește asta y scade.
Linia pătratelor celor mai mici pătrate
Ultimele două elemente din lista de mai sus ne îndreaptă către panta liniei celor mai mici pătrate care se potrivesc. Reamintim că panta unei linii este o măsurătoare a câte unități urcă sau coboară pentru fiecare unitate pe care o mutăm spre dreapta. Uneori, acest lucru este declarat ca creșterea liniei împărțite la rulare sau modificarea în y valori împărțite la modificarea în X valori.
În general, liniile drepte au pantele pozitive, negative sau zero. Dacă ar fi să examinăm liniile noastre de regresie cu cel mai puțin pătrat și să comparăm valorile corespunzătoare ale r, am observa că de fiecare dată datele noastre au un coeficient de corelație negativă, panta liniei de regresie este negativă. În mod similar, de fiecare dată când avem un coeficient de corelație pozitivă, panta liniei de regresie este pozitivă.
Ar trebui să fie evident din această observație că există cu siguranță o legătură între semnul coeficientului de corelație și panta liniei celor mai mici pătrate. Rămâne să explicăm de ce acest lucru este adevărat.
Formula pentru versant
Motivul conexiunii dintre valoarea de r iar panta liniei cu cele mai mici pătrate are legătură cu formula care ne oferă panta acestei linii. Pentru date în pereche (X y) denotăm deviație standard din X date de sX și abaterea standard a y date de sy.
Formula pantei A a liniei de regresie este:
- a = r (s.)y/ sX)
Calculul unei abateri standard presupune luarea rădăcinii pătrate pozitive a unui număr non-negativ. Drept urmare, ambele abateri standard în formula pentru pantă trebuie să fie negative. Dacă presupunem că există o oarecare variație a datelor noastre, vom putea ignora posibilitatea ca oricare dintre aceste abateri standard să fie zero. Prin urmare, semnul coeficientului de corelație va fi același cu semnul pantei liniei de regresie.