Interval de încredere pentru diferența a două proporții de populație

Intervale de încredere sunt o parte din statistici deduse. Ideea de bază din spatele acestui subiect este estimarea valorii unei populații necunoscute parametru prin utilizarea unui eșantion statistic. Nu numai că putem estima valoarea unui parametru, dar putem adapta metodele noastre pentru a estima diferența dintre doi parametri înrudiți. De exemplu, poate dorim să aflăm diferența dintre procentul populației de sex masculin care votează în SUA, care susține o anumită legislație în comparație cu populația care votează.

Vom vedea cum se face acest tip de calcul prin construirea unui interval de încredere pentru diferența a două proporții de populație. În cadrul procesului vom examina o parte din teoria din spatele acestui calcul. Vom vedea unele asemănări cu modul în care construim o interval de încredere pentru o singură proporție a populației precum și a intervalul de încredere pentru diferența a două populații înseamnă.

generalități

Înainte de a analiza formula specifică pe care o vom folosi, să luăm în considerare cadrul general în care se încadrează acest tip de încredere. Forma tipului de interval de încredere pe care îl vom analiza este dată de următoarea formulă:

instagram viewer

Estimare +/- Marja de eroare

Multe intervale de încredere sunt de acest tip. Există două numere pe care trebuie să le calculăm. Prima dintre aceste valori este estimarea parametrului. A doua valoare este marja de eroare. Această marjă de eroare are în vedere faptul că avem o estimare. Intervalul de încredere ne oferă o serie de valori posibile pentru parametrul nostru necunoscut.

Condiții

Ar trebui să ne asigurăm că toate condițiile sunt îndeplinite înainte de a face orice calcul. Pentru a găsi un interval de încredere pentru diferența de două proporții de populație, trebuie să ne asigurăm că următoarele rețin:

Avem doua probe simple aleatoare din populații mari. Aici „mare” înseamnă că populația este de cel puțin 20 de ori mai mare decât dimensiunea eșantionului. Mărimile eșantionului vor fi notate cu n₁ și n₂.
Indivizii noștri au fost aleși independent unul de celălalt.
Există cel puțin zece succese și zece eșecuri în fiecare dintre probele noastre.

Dacă ultimul element din listă nu este mulțumit, poate exista o cale de rezolvare. Putem modifica plus-patru interval de încredere construcție și obținere rezultate solide. Pe măsură ce mergem mai departe, presupunem că toate condițiile de mai sus au fost îndeplinite.

Probele și proporțiile populației

Acum suntem gata să ne construim intervalul de încredere. Începem cu estimarea diferenței dintre proporțiile populației noastre. Ambele proporții ale populației sunt estimate cu o proporție de probă. Aceste proporții de eșantion sunt statistici care se găsesc prin împărțirea numărului de succese în fiecare eșantion și apoi împărțirea la dimensiunea eșantionului respectiv.

Prima proporție a populației este notată de p₁. Dacă numărul de succese din eșantionul nostru de la această populație este k₁, atunci avem o proporție de eșantion de k₁ / n_1.

Denumim această statistică prin p̂₁. Citim acest simbol ca „p₁-ce „pentru că arată ca simbolul p₁ cu o pălărie deasupra.

Într-un mod similar putem calcula o proporție de eșantion din a doua populație. Parametrul de la această populație este p₂. Dacă numărul de succese din eșantionul nostru de la această populație este k₂, iar proporția noastră de eșantion este p̂₂= k₂ / n_2.

Aceste două statistici devin prima parte a intervalului nostru de încredere. Estimarea de p₁ este p̂₁. Estimarea de p₂ este p̂_2.Deci estimarea diferenței p₁ - p₂ este p̂₁- p̂_2.

Distribuția eșantionului Distribuția diferenței proporțiilor de eșantion

În continuare, trebuie să obținem formula pentru marja de eroare. Pentru a face acest lucru, vom lua în considerare mai întâi distribuție de eșantionare din p̂₁. Aceasta este o distribuție binomială cu probabilitate de succes p₁ și n₁ încercări. Media acestei distribuții este proporția p₁. Abateria standard a acestui tip de variabilă aleatorie are o variație de p₁(1 - p₁)/n₁.

Distribuția de eșantionare a p̂₂este similară cu cea a lui p̂₁. Pur și simplu schimbați toți indicii de la 1 la 2 și avem o distribuție binomială cu media p₂și variația de p₂(1 - p₂)/n₂.

Acum avem nevoie de câteva rezultate din statistici matematice pentru a determina distribuția de eșantionare a p̂₁- p̂₂. Media acestei distribuții este p₁ - p₂. Datorită faptului că varianțele se adună, vedem că variația distribuției de eșantionare este p₁(1 - p₁)/n₁ + p₂(1 - p₂)/n_2.Abaterea standard a distribuției este rădăcina pătrată a acestei formule.

Trebuie să facem câteva ajustări. Prima este că formula pentru abaterea standard a lui p̂₁- p̂₂ folosește parametrii necunoscuți din p₁și p₂. Desigur, dacă am cunoaște cu adevărat aceste valori, atunci nu ar fi deloc o problemă statistică interesantă. Nu ar trebui să estimăm diferența dintre p₁și p_2..În schimb, pur și simplu am putea calcula diferența exactă.

Această problemă poate fi rezolvată calculând o eroare standard și nu o abatere standard. Tot ce trebuie să facem este să înlocuim proporțiile populației cu proporții de probă. Erorile standard sunt calculate din statistici în loc de parametri. O eroare standard este utilă deoarece estimează eficient o abatere standard. Ce înseamnă acest lucru pentru noi este că nu mai trebuie să cunoaștem valoarea parametrilor p₁ și p₂. .Deoarece sunt cunoscute aceste proporții, eroarea standard este dată de rădăcina pătrată a expresiei următoare:

p₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.

Al doilea element pe care trebuie să-l abordăm este forma particulară a distribuției noastre de eșantionare. Se dovedește că putem folosi o distribuție normală pentru a aproxima distribuția de eșantionare a p̂₁- p̂₂. Motivul pentru aceasta este oarecum tehnic, dar este prezentat în paragraful următor.

Ambele p̂₁și p̂₂au o distribuție de eșantionare care este binomială. Fiecare din aceste distribuții binomiale poate fi aproximată destul de bine de o distribuție normală. Astfel p̂₁- p̂₂este o variabilă aleatorie. Se formează ca o combinație liniară a două variabile aleatorii. Fiecare dintre acestea este aproximat de o distribuție normală. Prin urmare, distribuția de eșantionare a p̂₁- p̂₂este, de asemenea, distribuit în mod normal.

Formula intervalului de încredere

Avem acum tot ce avem nevoie pentru a ne asambla intervalul de încredere. Estimarea este (p̂₁- p̂₂) și marja de eroare este z * [p₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.]^0.5. Valoarea pentru care introducem z * este dictat de nivelul de încredere C. Valori utilizate frecvent pentru z * sunt 1.645 pentru 90% încredere și 1.96 pentru 95% încredere. Aceste valori pentru z * indicați unde este exact porțiunea distribuției normale standard C procentul distribuției este între -z * și z *.

Următoarea formulă ne oferă un interval de încredere pentru diferența a două proporții de populație:

(p₁- p̂₂) +/- z * [p₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.]^0.5