Cum se utilizează analiza clusterului în cercetarea științelor sociale

Analiza clusterului este o tehnică statistică folosită pentru a identifica modul în care diverse unități - cum ar fi persoane, grupuri sau societăți - pot fi grupate împreună datorită caracteristicilor pe care le au în comun. Cunoscut și sub denumirea de clustering, este un instrument de analiză a datelor de explorare care își propune să sorteze diferite obiecte în grupuri, astfel încât atunci când aparțin aceluiași grup, ele au un grad maxim de asociere și atunci când nu aparțin aceluiași grup, gradul lor de asociere este minim. Spre deosebire de unele altele tehnici statistice, structurile descoperite prin analiza clusterului nu au nevoie de explicații sau interpretări - descoperă structura în date fără a explica de ce există.

Ce este clusteringul?

Clustering-ul există în aproape toate aspectele vieții noastre de zi cu zi. Luați, de exemplu, articole dintr-un magazin alimentar. Diferite tipuri de articole sunt întotdeauna afișate în aceleași locații sau în apropiere - carne, legume, sodă, cereale, produse din hârtie etc. Cercetătorii doresc adesea să facă același lucru cu datele și grupul obiectelor sau subiecților în grupuri care au sens.

instagram viewer

Pentru a lua un exemplu din științele sociale, să spunem că analizăm țările și dorim să le grupăm în grupuri bazate pe caracteristici precum diviziune a muncii, militari, tehnologie sau populație educată. Am găsi că Marea Britanie, Japonia, Franța, Germania și Statele Unite au caracteristici similare și ar fi grupate împreună. Uganda, Nicaragua și Pakistanul ar fi, de asemenea, grupate într-un grup diferit, deoarece au un set diferit de caracteristici, incluzând niveluri scăzute de bogăție, divizii mai simple ale muncii, instituții politice relativ instabile și nedemocratice și tehnologie scăzută dezvoltare.

Analiza clusterului este folosită de obicei în faza exploratorie a cercetării atunci când cercetătorul nu are ipoteze pre-concepute. În mod obișnuit nu este singura metodă statistică folosită, ci se face mai degrabă în etapele incipiente ale unui proiect pentru a ajuta la ghidarea restului analizei. Din acest motiv, testarea semnificației nu este de obicei nici relevantă, nici adecvată.

Există mai multe tipuri diferite de analiză cluster. Cele două cel mai des utilizate sunt clusteringul K-means și clustering-ul ierarhic.

K-înseamnă Clustering

K-means clustering tratează observațiile din date ca obiecte care au locații și distanțe unele de altele (rețineți că distanțele utilizate în clustering nu reprezintă deseori distanțe spațiale). Partitioneaza obiectele in K-uri care se exclud reciproc, astfel incat obiectele din fiecare cluster sa fie asa cât mai aproape unul de celălalt posibil și în același timp, cât mai departe de obiecte din alte grupuri. Fiecare cluster este apoi caracterizat prin media sau punctul central.

Gruparea Ierarhică

Gruparea ierarhică este o modalitate de a investiga grupări în date simultan pe o varietate de scale și distanțe. Face acest lucru prin crearea unui arbore de cluster cu diferite niveluri. Spre deosebire de K-înseamnă clustering, arborele nu este un singur set de clustere. Mai degrabă, arborele este o ierarhie pe mai multe niveluri în care grupurile de la un nivel sunt unite ca clustere la următorul nivel superior. Algoritmul care se folosește începe cu fiecare caz sau variabilă într-un cluster separat și apoi combină clustere până nu mai rămâne decât unul. Acest lucru permite cercetătorului să decidă ce nivel de clustering este cel mai potrivit pentru cercetările sale.

Efectuarea unei analize de cluster

Cel mai programe software statistice poate efectua analiza clusterului. În SPSS, selectați a analiza din meniu, apoi clasifica și analiza grupului. În SAS, cluster proc funcția poate fi utilizată.

Actualizat de Nicki Lisa Cole, Ph. D.

instagram story viewer