De multe ori când studiem un grup, comparăm într-adevăr două populații. În funcție de parametru din acest grup pe care îl interesăm și din condițiile în care ne ocupăm, există mai multe tehnici disponibile. Statistic deducție procedurile care privesc compararea a două populații nu pot fi de obicei aplicate la trei sau mai multe populații. Pentru a studia mai mult de două populații simultan, avem nevoie de diferite tipuri de instrumente statistice. Analiza variatiei, sau ANOVA, este o tehnică din interferențele statistice care ne permite să avem de-a face cu mai multe populații.
Compararea mijloacelor
Pentru a vedea ce probleme apar și de ce avem nevoie de ANOVA, vom lua în considerare un exemplu. Să presupunem că încercăm să stabilim dacă Rău greutatea bomboanelor M&M verzi, roșii, albastre și portocalii sunt diferite între ele. Vom indica ponderile medii pentru fiecare din aceste populații, μ1, μ2, μ3 μ4 și respectiv. Este posibil să folosim corespunzător test de ipoteză de mai multe ori și testați C (4,2), sau șase diferite ipoteze nule:
- H0: μ1 = μ2 pentru a verifica dacă greutatea medie a populației bomboanelor roșii este diferită de greutatea medie a populației bomboanelor albastre.
- H0: μ2 = μ3 pentru a verifica dacă greutatea medie a populației bomboanelor albastre este diferită de greutatea medie a populației bomboanelor verzi.
- H0: μ3 = μ4 pentru a verifica dacă greutatea medie a populației bomboanelor verzi este diferită de greutatea medie a populației bomboanelor portocalii.
- H0: μ4 = μ1 pentru a verifica dacă greutatea medie a populației bomboanelor portocalii este diferită de greutatea medie a populației bomboanelor roșii.
- H0: μ1 = μ3 pentru a verifica dacă greutatea medie a populației bomboanelor roșii este diferită de greutatea medie a populației bomboanelor verzi.
- H0: μ2 = μ4 pentru a verifica dacă greutatea medie a populației bomboanelor albastre este diferită de greutatea medie a populației bomboanelor portocalii.
Există multe probleme cu acest tip de analiză. Vom avea șase p-values. Chiar dacă am putea testa fiecare la un procent de 95% nivel de încredere, încrederea noastră în procesul general este mai mică decât aceasta, deoarece probabilitățile se înmulțesc: .95 x .95 x .95 x .95 x .95 x .95 este aproximativ .74 sau un nivel de încredere de 74%. Astfel, probabilitatea unei erori de tip I a crescut.
La un nivel mai fundamental, nu putem compara acești patru parametri în ansamblu, comparându-i doi simultan. Mijloacele M&M roșii și albastre pot fi semnificative, greutatea medie a roșului fiind relativ mai mare decât greutatea medie a albastruului. Cu toate acestea, atunci când luăm în considerare greutățile medii ale tuturor celor patru tipuri de bomboane, este posibil să nu existe o diferență semnificativă.
Analiza variatiei
Pentru a face față situațiilor în care trebuie să facem comparații multiple, utilizăm ANOVA. Acest test ne permite să luăm în considerare parametrii mai multor populații simultan, fără a intra în unele dintre problemele cu care ne confruntăm efectuarea de teste de ipoteză pe doi parametri simultan.
Pentru a efectua ANOVA cu exemplul M&M de mai sus, am testa ipoteza nulă H0:μ1 = μ2 = μ3= μ4. Acest lucru afirmă că nu există nicio diferență între ponderile medii ale roșu, albastru și verde M&M. Ipoteza alternativă este că există o oarecare diferență între greutățile medii ale M&M roșu, albastru, verde și portocaliu. Această ipoteză este într-adevăr o combinație a mai multor enunțuri HA:
- Greutatea medie a populației de bomboane roșii nu este egală cu greutatea medie a populației de bomboane albastre, OR
- Greutatea medie a populației de bomboane albastre nu este egală cu greutatea medie a populației de bomboane verzi, OR
- Greutatea medie a populației de bomboane verzi nu este egală cu greutatea medie a populației de bomboane portocalii, OR
- Greutatea medie a populației de bomboane verzi nu este egală cu greutatea medie a populației de bomboane roșii, OR
- Greutatea medie a populației de bomboane albastre nu este egală cu greutatea medie a populației de bomboane portocalii, OR
- Greutatea medie a populației de bomboane albastre nu este egală cu greutatea medie a populației de bomboane roșii.
În acest caz particular, pentru a obține valoarea noastră p, am folosi a distribuția probabilităților cunoscut ca F-distribuție. Calculele care implică testul ANOVA F pot fi făcute manual, dar sunt de obicei calculate cu software statistic.
Comparații multiple
Ceea ce separă ANOVA de alte tehnici statistice este faptul că este utilizat pentru a face comparații multiple. Acest lucru este comun în toate statisticile, deoarece există multe ori în care vrem să comparăm mai mult decât doar două grupuri. De obicei, un test de ansamblu sugerează că există o anumită diferență între parametrii pe care îi studiem. Urmăm apoi acest test cu alte analize pentru a decide ce parametru diferă.