Outliers sunt valori ale datelor care diferă mult de majoritatea unui set de date. Aceste valori se încadrează într-o tendință generală care este prezentă în date. O examinare atentă a unui set de date pentru a căuta valori superioare provoacă unele dificultăți. Deși este ușor de observat, posibil prin utilizarea unui model, că unele valori diferă de restul datelor, cât de diferită trebuie să fie considerată o valoare mai mare? Vom analiza o măsurătoare specifică care ne va oferi un standard obiectiv al ceea ce constituie un aspect mai vechi.
Gama interquartilă
gama interquartile este ceea ce putem folosi pentru a determina dacă o valoare extremă este într-adevăr una anterioară. Gama interquartile se bazează pe o parte din rezumat cu cinci numere a unui set de date, și anume primul quartile și al treilea quartile. Calculul intervalului interquartile implică o singură operație aritmetică. Tot ce trebuie să facem pentru a găsi intervalul interquartil este să scădem primul quartil din al treilea quartile. Diferența rezultată ne spune cât de răspândită este jumătatea mijlocie a datelor noastre.
Determinarea valorilor exterioare
Înmulțirea intervalului interquartile (IQR) cu 1,5 ne va oferi o modalitate de a determina dacă o anumită valoare este una anterioară. Dacă scădem 1,5 x IQR din primul quartile, orice valori ale datelor mai mici decât acest număr sunt considerate valori mai mari. În mod similar, dacă adăugăm 1,5 x IQR la al treilea quartile, orice valori ale datelor mai mari decât acest număr sunt considerate valori mai mari.
Outliers puternici
Unele valori superioare prezintă o abatere extremă de la restul unui set de date. În aceste cazuri, putem face pașii de mai sus, schimbând doar numărul cu care multiplicăm IQR și definind un anumit tip de date. Dacă scădem 3,0 x IQR din primul quartile, orice punct care este sub acest număr se numește o valoare mai puternică. În același mod, adăugarea de 3,0 x IQR la cel de-al treilea cvartal ne permite să definim valori superioare, analizând puncte care sunt mai mari decât acest număr.
Outliers slabi
În afară de valorile puternice, există o altă categorie pentru outliers. Dacă o valoare a datelor este una anterioară, dar nu una puternică, atunci spunem că valoarea este mai slabă. Vom analiza aceste concepte explorând câteva exemple.
Exemplul 1
În primul rând, să presupunem că avem setul de date {1, 2, 2, 3, 3, 4, 5, 5, 9}. Numărul 9 pare, cu siguranță, că ar putea fi unul mai vechi. Este mult mai mare decât orice altă valoare din restul setului. Pentru a determina obiectiv dacă 9 este o metodă anterioară, folosim metodele de mai sus. Primul quartile este 2, iar al treilea quartile 5, ceea ce înseamnă că intervalul interquartil este 3. Înmulțim intervalul interquartile cu 1,5, obținând 4,5, apoi adăugăm acest număr la al treilea cvartil. Rezultatul, 9,5, este mai mare decât oricare dintre valorile noastre de date. Prin urmare, nu există valori exterioare.
Exemplul 2
Acum ne uităm la același set de date ca înainte, cu excepția faptului că cea mai mare valoare este 10 și nu 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Primul quartile, al treilea quartile și intervalul interquartile sunt identice cu exemplul 1. Când adăugăm 1,5 x IQR = 4,5 la al treilea quartile, suma este 9,5. Întrucât 10 este mai mare decât 9,5, este considerat un anormal.
10 este o persoană puternică sau slabă? Pentru aceasta, trebuie să analizăm 3 x IQR = 9. Când adăugăm 9 la al treilea quartile, ajungem la o sumă de 14. Întrucât 10 nu este mai mare de 14, nu este o problemă puternică. Astfel, ajungem la concluzia că 10 este mai slabă.
Motive pentru identificarea valorilor exterioare
Întotdeauna trebuie să fim în căutarea valorilor superioare. Uneori sunt cauzate de o eroare. Alte ori valorile exterioare indică prezența unui fenomen necunoscut anterior. Un alt motiv pentru care trebuie să fim diligenți în ceea ce privește verificarea valorilor externe este din cauza tuturor Statisticile descriptive care sunt sensibile la valori. Media, deviație standard și coeficientul de corelație pentru date în pereche sunt doar câteva dintre aceste tipuri de statistici.