Înțelegerea quantilelor: definiții și utilizări

click fraud protection

Statistici sumare, cum ar fi mediana, primul quartile și al treilea quartile sunt măsurători ale poziției. Acest lucru se datorează faptului că aceste numere indică locul în care se află o proporție specificată a distribuției datelor. De exemplu, mediana este poziția de mijloc a datelor cercetate. Jumătate din date au valori mai mici decât mediana. În mod similar, 25% din date au valori mai mici decât primul quartile și 75% din date au valori mai mici decât al treilea quartile.

Acest concept poate fi generalizat. Un mod de a face acest lucru este să ia în considerare percentilele. 90. percentila indică punctul în care 90% din date au valori mai mici decât acest număr. Mai general, ppercentila este numărul n pentru care p% din date este mai mic decât n.

Variabile aleatorii continue

Deși statisticile de ordine ale medianei, primului quartile și celei de-a treia cvile sunt introduse de obicei în a setând cu un set discret de date, aceste statistici pot fi de asemenea definite pentru o întâmplare aleatorie variabil. Deoarece lucrăm cu o distribuție continuă, folosim integralul.

instagram viewer
ppercentila este un număr n astfel încât:

-₶nf ( X ) dx = p/100.

Aici f ( X ) este o funcție a densității probabilității. Astfel putem obține orice percentilă pe care o dorim pentru o continuu distribuție.

cuantile

O generalizare suplimentară constă în faptul că statisticile noastre de comandă împart distribuția cu care lucrăm. Mediana împarte setul de date la jumătate, iar mediana, sau a 50-a percentilă a unei distribuții continue împarte distribuția în jumătate în ceea ce privește aria. Primul quartile, median și a treia cvartilă a împărțit datele noastre în patru bucăți cu același număr în fiecare. Putem folosi integralul de mai sus pentru a obține procentele 25, 50 și 75 și împărți o distribuție continuă în patru porțiuni de suprafață egală.

Putem generaliza această procedură. Întrebarea cu care putem începe este dată cu un număr natural n, cum putem împărți distribuția unei variabile în n bucăți la fel de mari? Aceasta vorbește direct de ideea de cuantile.

n cantilele pentru un set de date se găsesc aproximativ prin clasificarea datelor în ordine și apoi împărțirea acestui clasament n - 1 puncte egal distanțate pe interval.

Dacă avem o funcție de densitate de probabilitate pentru o variabilă aleatorie continuă, folosim integralul de mai sus pentru a găsi cantilele. Pentru n quantile, vrem:

  • Primul care are 1 /n a zonei de distribuție la stânga acesteia.
  • Al doilea care are 2 /n a zonei de distribuție la stânga acesteia.
  • ra avea r/n a zonei de distribuție la stânga acesteia.
  • Ultimul care a avut (n - 1)/n a zonei de distribuție la stânga acesteia.

Vedem asta pentru orice număr natural n, n cuantilele corespund celor 100r/nprocentele, unde r poate fi orice număr natural de la 1 la n - 1.

Quantile comune

Anumite tipuri de cuantile sunt utilizate destul de frecvent pentru a avea nume specifice. Mai jos este o listă a acestora:

  • Cuantilul 2 se numește mediana
  • Cei 3 cuantici se numesc terciles
  • Cele 4 cuantice se numesc quartile
  • Cele 5 cuantice se numesc chintile
  • Cele 6 cuantice sunt numite sextile
  • Cei 7 cuantici se numesc septile
  • Cele 8 cuantile sunt numite octile
  • Cei 10 cuantici se numesc decile
  • Cele 12 cuantice se numesc duodecile
  • Cele 20 de cuantice se numesc vigintile
  • Cei 100 de cuantici se numesc percentile
  • 1000 de cuantile sunt numite permile

Desigur, există alte cantilice dincolo de cele din lista de mai sus. De multe ori cantilul specific utilizat se potrivește cu dimensiunea eșantionului de la un continuu distribuire.

Utilizarea cuantilelor

Pe lângă specificarea poziției unui set de date, cantilele sunt utile în alte moduri. Să presupunem că avem un eșantion simplu aleatoriu de la o populație, iar distribuția populației nu este cunoscută. Pentru a ajuta la determinarea dacă un model, cum ar fi o distribuție normală sau o distribuție Weibull este o potrivire bună pentru populația din care am preluat probe, putem analiza cantilele datelor noastre și modelul.

Prin potrivirea cuantilelor din datele noastre de eșantion cu cele cuantice dintr-o anumită distribuția probabilităților, rezultatul este o colecție de date în pereche. Graficăm aceste date într-o diagramă de dispersie, cunoscută sub denumirea de complot cuantil-cuantil sau de complot q-q. Dacă scatterplot-ul rezultat este aproximativ liniar, atunci modelul este potrivit pentru datele noastre.

instagram story viewer