Carissimi lettori, spero sia stato facile seguirmi sin'ora dato che ho espresso i concetti in forma molto leggera e semplice. Per leggere questo ovviamente è necessario leggere i precedenti, altrimenti è impossibile seguire il discorso. Oggi parliamo della dispersione dei dati.
Quando abbiamo un punteggio che converge verso un'unica direzione abbiamo una dispersione bassa. La dispersione del punteggio aumenta se ovviamente il punteggio, se i risultati sono più eterogenei. Ieri ho mostrato dei grafici con delle curve in cui viene evidenziata la curtosi, grafici con code leptocurtiche in cui si riscontra una dispersione bassa e curve platicurtiche tipiche dei casi di dispersione alta.
Naturalmente la dispersione , dipende anche dal numero di categorie che noi usiamo per la raccolta dei dati. Se per esempio abbiamo 12 categorie è ovvio che troviamo una dispersione maggiore rispetto a ricerche in cui i dati vengono raccolti in 3 o 4 categorie.
Il calcolo della dispersione è definito in base a tre parametri che oggi andremo ad approfondire, ma sempre in maniera molto sintetica e semplice. Gli esempi sono su scala nominale, quindi parleremo di una ipotetica ripartizione di 100 soggetti nei 12 segni zodiacali. Però prima facciamo un ulteriore chiarimento. Immaginiamo delle mucche in un pascolo in diversi appezzamenti di terreno. Immaginiamo di avere un raggruppamento in un punto e poi tante mucche sparpagliate qua e la. La differenza tra le mucche che stanno in un punto e tutte le altre sparpagliate, appunto è l'indice di dispersione. Ora occupiamoci dei tre parametri.
1) Il rapporto di variazione RV è la proporzione dei casi che non cadono nella categoria che costituisce la classe modale. Ricordiamo che la classe modale è quella in cui ricade la frequenza maggiore. (Dove stanno concentrate il maggior numero di mucche, se facciamo riferimento al esempio di prima) Se per esempio su 100 persone 90 sono del Toro e poi tutte le altre sono degli altri segni, la classe modale è Toro perché in quel segno rientra il maggior numero di casi. Lo ribadisco per facilitare il discorso e per non ritornare a leggere gli articoli precedenti.
Il rapporto di variazione si calcola con la formula 1-fm/n dove fm è ovviamente il numero della frequenza della categoria modale (90 nel caso sopra esposto) e dove n è il numero totale dei casi (100). 1-90/100=0,1 è il risultato (quindi il 10 per cento è distribuito per tutte le classi). E' ovvio che quanto più il valore è vicino a quello della moda, più si avvicina allo zero. Se ci aggiungiamo più categorie ovviamente è più facile che il valore tenderà verso l'1 dato che è più difficile che si possa avere una distribuzione di dati attorno alla moda, quando appunto le categorie sono molte. E' più facile che i punteggi siano distribuiti tra le diverse categorie (o classi).
2) L'indice di diversità ID è la proporzione di casi che ricade in ciascuna modalità. Cioè si riferisce nello specifico a quanta dispersione esiste per ogni classe (Ariete, Toro, gemelli etc. etc.) Si calcola elevando al quadrato la proporzione di ogni classe e poi sommando i risultati. Facciamo un esempio pratico ma un po' diverso dal precedente ma sempre utilizzando 100 casi:
categoria frequenza calcolo: frequenza/n casi
Ariete 10 (10/100) al quadrato= 0,01
Toro 10 (10/100) al quadrato=0,01
Gemelli 15 (15/100) al quadrato=0,022
Cancro 5 (5/100) al quadrato=0,0025
Leone 15 (15/100) al quadrato=0,022
Vergine 20 (20/100) al quadrato=0,04
Bilancia 4 (4/100) al quadrato=0,0016
Scorpione 5 (5/100) al quadrato=0,0025
Sagittario 1 (1/100) al quadrato=0,0001
Capricorno 3 (3/100) al quadrato=0,0009
Aquario 3 (3/100) al quadrato=0,0009
Pesci 9 (9/100) al quadrato=0,0081
k tot segni tot casi totale sommatoria Sigma
12 100 0,1197
Lì dove i numeri dei casi ricadono quasi tutti nella stessa categoria, (per esempio come nel caso precedente che 90 erano nel Toro) l'indice di diversità si avvicina a zero. Mentre è massimo (1) quando vi è la stessa proporzione di casi per ogni classe (come, per esempio, se avessimo dieci casi circa per ogni segno).
3) L'indice di variazione qualitativa IVQ si calcola frazionando l'ID per 1-/k (k è il numero delle categorie che nel caso precedente erano 12). Il numero è standardizzato rispetto al numero delle classi. Grazie a questo terzo parametro abbiamo un risultato che è relativo al preciso numero delle classi.
Se l' ID è pari a 0,1197 allora:
0,1197 0,1197
______= _______= 0,13058
1-1/12 0,91667
Quando i casi sono equamente distribuiti per le diverse categorie abbiamo un IVQ pari a 1; ma quando invece ricadono in una sola categoria l'indice è uguale a 0, esattamente come nei parametri precedenti.