Cari lettori, ho scelto di scrivere questi articoli inerenti la statistica applicata all'astrologia, affinché anche gli altri astrologi possano informarsi e apprendere qualcosa, e in questo modo potremo parlare tutti lo stesso linguaggio, senza l'inconveniente che si inventino di sana pianta i sistemi e i modi di procedere per fare ricerca. Infatti più volte mi sono inbattutto in affermazioni ridicole e castronerie totali.
Oggi entriamo nel vivo della statistica parlando del campionamento, ossia di come si scelgono e si raccolgono i dati per avviare una ricerca di tipo statistico. Per campione si intende un sotto insieme di tutto l'insieme che si vorrebbe sondare (che viene detto, nel gergo, "universo", e che qui ovviamente non rappresenta lo spazio con le stelle, ma appunto la totalità dei casi a cui poter estendere la propria generalizzazione). Per esempio, in astrologia si vorrebbe studiare l'insieme totale di tutti gli esseri umani che presentano una data caratteristica, per vedere se essa è rintracciabile in maniera astrologica leggendo il grafico di nascita. Siccome un'operazione non si può fare perché comporta numerosi problemi (come il tempo, le risorse economiche, la reperibilità del materiale) allora si procede a estrarre un campione che in qualche modo possa essere rappresentativo dell'intero universo.
Si procede dunque alla compilazione di una lista da cui poi estrarre il campione, o i campioni da analizzare. Con la statistica descrittiva noi appunto descriviamo le caratteristiche del campione (età, professione, segno zodiacale, quante volte compare un certo valore astrologico in relazione a una data caratteristica definita in precedenza) e la statistica inferenziale che permette di usare quei dati per formulare una generalizzazione a proposito dell'intero universo dei casi.
Il campione in astrologia deve essere eterogeneo a seconda della ricerca che vogliamo compiere. In ogni caso è importantissimo comprendere che esiste una relazione matematica tra il campione e l'intero universo di cui vogliamo avere informazioni. La relazione è il numero "n" del campione fratto il numero "N" dell'intero universo di casi.
Generalmente si procede a fare una stima della frequenza teorica dell'elemento che vogliamo ricercare nell'intero universo dei casi (e lo si fa con formule precise). Dopo di che si osserva se il risultato del campione "n" supera o è inferiore, in maniera statisticamente significativa, alla frequenza teorica stimata in precedenza nel universo dei casi "N". Credo che sin qui sia tutto molto elementare e semplice.
E' di capitale importanza comprendere che la frequenza trovata nel campione "n", non è sufficiente a descrivere l'intero universo dei casi "N". Infatti potremmo trovare dei valori superiori o inferiori a quelli teorici, ma solo per puro caso (errori sistematici). Allora, per evitare che i risultati possano dipendere dal caso, è necessario usare campioni molto, molto vasti. Questo è cruciale nel nostro discorso perché c'è chi ancora non ha capito la logica elementare che si cela dietro questo bisogno. Se noi usiamo i risultati di "n" per comprendere la tendenza dell'intero universo dei casi "N", facciamo il cosiddetto errore campionario. L'errore campionario è inversamente proporzionale all'ampiezza del campione "N". Questo in parole semplici significa che tanto più il nostro campione è grande è tanto meno potremo fare errori quando andremo a fare la generalizzazione. Cioè, se io per esempio voglio vedere se è vero che Marte compare nei temi dei militari in maniera significativa, allora dobbiamo prendere un campione "n" o una serie di campioni "n" che si avvicina il più possibile al numero totale dei militari esistenti "N". Più il numero dei soggetti del campione "n" è alto e più la possibilità di compiere errori si abbassa.
E' ovvio che se i dati dipendono dalla raccolta del materiale, allora è possibile pure che questi dati siano errati o compilati in maniera errata. Per esempio è importante, nel caso delle ricerche astrologiche, che dati di nascita e sopratutto l'orario siano esatti. Gli altri tipi di errori sono stati descritti nel primo capitolo di questa dissertazione.
Quando ottengo dei risultati interessanti, sarà poi necessario confrontarli non solo con le frequenze teoriche del universo "N", ma pure con un insieme di casi random, cioè per vedere se anche tutti quelli che NON appartengono alla categoria dei militari hanno Marte in posizione forte. Ma bisogna anche sapere che non possiamo scegliere a modo nostro il campione per il confronto. Affinché le scelte siano davvero casuali è necessario seguire delle regole. Per esempio, per rispettare la vera casualità, è necessario che ogni soggetto abbia le stesse probabilità che avrebbero tutti gli altri, di essere inseriti all'interno di un campione "n" o nell'universo dei casi "N"; altrimenti è possibile incorrere in errori anche gravi che possono falsare i risultati. E' ovvio che se per esempio scegliamo il nostro campione soltanto in una certo ceto sociale per esempio, è possibile che i risultati che otterremo saranno strettamente dipendenti da quel ceto.
Se per esempio abbiamo 100 soggetti e ne dobbiamo scegliere 10 a caso, possiamo usare dei calcolatori che appunto ci permettono di compiere l'estrazione. Per definire la probabilità che un soggetto possa essere inserito all'interno di un campione, si usa la formula: 1/nCN
Più è piccolo il campione e più è facile che lo stesso numero possa ritornare a essere estratto.
Il campionamento sistematico invece richiede che i numeri scelti da un universo di casi "N" di 100 persone per esempio, si scelgano partendo in maniera casuale da un elemento "k" e poi scegliendo i successivi numeri con intervalli prestabiliti. Il "k" elemento è dato dal rapporto tra il numero totale dei casi del universo "N" e il numero dei casi "n" del campione che ci occorre. Per esempio se su 100 soggetti del universo "N" volessimo scegliere un campione "n" di 10 elementi, allora "k" sarebbe un numero estratto a caso tra i primi dieci. Da quel momento potremmo decidere di scegliere gli altri nove elementi con intervalli di 5 a 5 per esempio. Così, immaginando che su 100 di "N" abbiamo estratto casualmente il numero 3, allora procederemo a scegliere altri nove numeri a gruppi di 5 a 5 e così avremo che il secondo estratto sarà il numero 8, il terzo estratto sarà il numero 13, il quarto sarà il numero 18 e così via sino a completare la lista dei 10 casi che ci occorrono per il nostro campione "n".
Il campionamento è stratificato quando dobbiamo scegliere tra sottogruppi di popolazione che sono caratterizzati da qualcosa di specifico, come per esempio il reddito e il ceto sociale. Allora si procede a dividere l'universo dei casi "N" in strati appunto. Ognuno di questi ovviamente avrà una estensione numerica di individui differente rispetto agli altri strati e per questo il numero dei casi deve essere estratto in proporzione.
Dalla figura possiamo notare il campione diviso in strati e poi da questi sono estratti, in maniera casuale o in maniera sistematica (se sono tutti della stessa ampiezza) i singoli casi che costituiranno il nostro campione definitivo.
Quando abbiamo dei sottogruppi (come le classi di una determinata scuola) possiamo estrarre grappoli di persone e non solo necessariamente singoli individui scelti a caso perché si presuppone che le classi siano già abbastanza eterogenee.