Regresia liniară este o tehnică statistică care este utilizată pentru a afla mai multe despre relația dintre o variabilă independentă (predictor) și o variabilă dependentă (de criteriu). Când aveți mai multe variabile independente în analiza dvs., aceasta este denumită regresie liniară multiplă. În general, regresia permite cercetătorului să pună întrebarea generală „Care este cel mai bun predictor al ???”
De exemplu, să spunem că studiam cauzele obezitate, măsurat prin indicele de masă corporală (IMC). În special, am dorit să vedem dacă următoarele variabile au fost predictori importanți ai IMC-ului unei persoane: numărul de fast-food mese mâncate pe săptămână, numărul de ore de televiziune vizionate pe săptămână, numărul de minute petrecute exerciții pe săptămână și părinții IMC. Regresia liniară ar fi o metodologie bună pentru această analiză.
Ecuația de regresie
Când efectuați o analiză de regresie cu o singură variabilă independentă, ecuația de regresie este Y = a + b * X unde Y este variabila dependentă, X este variabila independentă, a este constanta (sau interceptarea), iar b este
panta liniei de regresie. De exemplu, să spunem că GPA este cel mai bine prezis de ecuația de regresie 1 + 0,02 * IQ. Dacă un student ar avea un IQ de 130, atunci GPA-ul său ar fi 3.6 (1 + 0.02 * 130 = 3.6).Când efectuați o analiză de regresie în care aveți mai multe variabile independente, ecuația de regresie este Y = a + b1 * X1 + b2 * X2 +... + Bp * Xp. De exemplu, dacă am dori să includem mai multe variabile la analiza noastră GPA, cum ar fi măsurile de motivație și autodisciplină, am folosi acest lucru ecuaţie.
R-pătrat
R-pătrat, cunoscut și sub denumirea de coeficient de determinare, este o statistică frecvent utilizată pentru a evalua potrivirea modelului unei ecuații de regresie. Adică, cât de bune sunt toate variabilele dvs. independente la prezicerea variabilei dvs. dependente? Valoarea pătratului R variază de la 0,0 la 1,0 și poate fi înmulțită cu 100 pentru a obține un procent de variație a explicat. De exemplu, revenind la ecuația noastră de regresie GPA cu o singură variabilă independentă (IQ)... Să spunem că R-pătratul pentru ecuație a fost 0,4. Am putea interpreta acest lucru însemnând că 40% din variația GPA este explicată de IQ-ul. Dacă apoi adăugăm celelalte două variabile ale noastre (motivația și autodisciplina) și pătratul R crește la 0,6, acest lucru înseamnă că coeficientul intelectual, motivația și autodisciplina explică împreună 60% din variația GPA înscris.
Analizele de regresie sunt efectuate de obicei folosind software statistic, cum ar fi SPSS sau SAS, astfel încât pătratul R este calculat pentru dvs.
Interpretarea coeficienților de regresie (b)
Coeficienții b din ecuațiile de mai sus reprezintă puterea și direcția relației dintre variabilele independente și dependente. Dacă ne uităm la ecuația GPA și IQ, 1 + 0,02 * 130 = 3,6, 0,02 este coeficientul de regresie pentru variabila IQ. Acest lucru ne spune că direcția relației este pozitivă, astfel încât, pe măsură ce coeficientul de coeficient intelectual, crește GPA. Dacă ecuația ar fi 1 - 0,02 * 130 = Y, atunci aceasta ar însemna că relația dintre IQ și GPA a fost negativă.
Ipoteze
Există mai multe ipoteze despre datele care trebuie îndeplinite pentru a realiza o analiză de regresie liniară:
- Liniaritatea: Se presupune că relația dintre variabilele independente și dependente este liniară. Cu toate că această presupunere nu poate fi niciodată confirmată pe deplin, analizând o grafică difuzată dintre variabilele dvs. vă pot ajuta să faceți această determinare. Dacă există o curbură în relație, puteți lua în considerare transformarea variabilelor sau permiterea în mod explicit a componentelor neliniare.
- normalitatea: Se presupune că reziduuri dintre variabilele dvs. sunt distribuite în mod normal. Adică erorile din predicția valorii lui Y (variabila dependentă) sunt distribuite într-un mod care se apropie de curba normală. Puteți privi histograme sau comploturi normale de probabilitate pentru a inspecta distribuția variabilelor și valorile lor reziduale.
- Independenţă: Se presupune că erorile din predicția valorii lui Y sunt toate independente unele de altele (nu sunt corelate).
- Homoscedasticity: Se presupune că variația în jurul liniei de regresie este aceeași pentru toate valorile variabilelor independente.
Sursă
- StatSoft: Manual text electronic de statistică. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.