01 dicembre 2014

Astrologia e statistica. 14^ parte.

Immaginate di dover rispondere a 4 quesiti astrologici diversi, ognuno dei quali contiene 5 risposte tra cui scegliere. Quante probabilità ci sono di rispondere esattamente a tutte e 4 le domande? 
In questo caso, per le probabilità composte, la formula consiste nel moltiplicare tra loro i singoli eventi.
Ogni domanda ha una risposta esatta su 5 possibilità. Ancora più chiaramente e per facilitare i calcoli, ogni domanda corrisponde a 1 risposta esatta su 5: (1/5).  

Pertanto (1/5)x(1/5)x(1/5)x(1/5)= 1/625 (5 è alla quarta è 625)= 
0,0016x100= 0,16% (una probabilità e mezzo su mille in pratica). Naturalmente ogni risposta esatta non influenza la possibilità di rispondere esattamente alle domande successive. Se trasportiamo questo esempio alle estrazioni del super enalotto per esempio, diviene evidente come i numeri estratti non influenzano la possibilità che all'astrazione successiva debbano uscire numeri diversi da quelli appena estratti. 

Infatti ogni estrazione è indipendente da quelle precedenti e quelle successive e per questo, ogni volta, tutti i numeri hanno le stesse e identiche possibilità di venire estratti, indipendentemente dal fatto che siano stati già estratti un'altra volta. La probabilità che possa uscire la stessa sequenza numerica è la stessa di quella che vengano estratti qualsiasi altri numeri. Questo è un tipico esempio di evento indipendente

Facciamo un altro esempio, diverso dal precedente, ma relativo a un evento dipendente.
Prendiamo per esempio il caso della tombola, dove la probabilità di estrarre un secondo numero dipende dall'estrazione precedente. Immaginiamo di voler sapere quante probabilità abbiamo di estrarre il numero 15 per esempio, e poi il 26. 
Per il primo numero ovviamente è di  1/90 (perché 90 sono i numeri totali: una possibilità su 90). Per il secondo caso è di 1/89, (una possibilità su 89) dove 89 rappresenta il numero totale dei numeri meno il primo che è stato estratto. A quel punto, per vedere la probabilità congiunta che si verifichi il fatto A e poi il fatto B, si esegue lo stesso calcolo precedente: (1/90)x(1/89)= 1/8.010 (90x89 è uguale a 8010)= 0,00012x100=0,012%. In pratica 12 probabilità su 10.000

Vediamo in forma grafica cosa accade se lanciamo dei dadi.
Dal grafico a sinistra si vede la distribuzione teorica, cioè la frequenza di ogni numero (da 1 a 6) è uguale. Ne abbiamo già parlato, la probabilità che possa uscire il numero 5 per esempio, è la stessa che possa uscire un qualsiasi altro da 1 a 6.
Quindi il grafico è rettangolare. 

Quindi, immaginando 600 lanci, idealmente dovremmo trovare 100 volte il numero 1, 100 volte il numero 2, 100 il numero 3, e così via sino al numero 6.
Ma un conto è la distribuzione ideale, ipotetica e un conto è la distribuzione reale. Cioè, per ottenere quella proporzione è necessario ripetere i lanci circa 33.000 volte almeno; e solo raggiunto un numero di lanci così elevato potremo giungere alla conclusione che in effetti ogni numero ha la stessa probabilità degli altri.

Dal grafico accanto al precedente è intuibile con più facilità quel che voglio dire. Immaginiamo di voler stabilire qual'è la media matematica dei numeri usciti dal dado dopo ogni lancio. La media ideale ovviamente è 3 perché se i numeri vanno da 1 a 6 è ovvio che 6:2=3 Cioè, facendo la somma di tutti i numeri estratti e poi divisi per il numero delle prove, otterremmo 3.
Dal grafico vediamo tre curve diverse. La più bassa si riferisce al fatto che la media 3 ancora non è di molto superiore agli altri valori se lanciamo il dado 600 volte. Nella curva leggermente più alta si vede che già la distribuzione si restringe un po' di più sul valore medio 3 se aumentiamo ancora il numero dei lanci; mentre nella terza è ancora più evidente che la media è concentrata di molto attorno al numero 3. Questo dimostra che più sarà ampio (numeroso) il nostro campione, e più sarà facile avere una distribuzione media uguale a quella che ci si attende stando alle regola che tutti i numeri di un dado hanno la stessa probabilità di uscire. 

Questo spiega come mai serve un campione grandissimo quando si cerca di fare indagini su di una popolazione: semplicemente, ogni risultato è dato dal caso e solo ripetendo più e più volte le prove, si ottiene un reale valore significativo. Se in astrologia raccolgo un campione di 100 sacerdoti per vedere se esiste una caratteristica astrologica predominante, ovviamente commetto un grande errore perché potrebbe essere che tra quei 100 si evidenzi una caratteristica che invece sparirebbe con 10.000 casi. Ricordo che una volta ebbi accesso a un database con le date di nascita di alcuni malati di AIDS. Quando iniziali le osservazioni era schiacciante la prevalenza di una Casa astrologica; ma poi aumentando il campione ne venne fuori un'altra. Se io mi fossi accontentato di 30 casi, avrei fatto conclusioni completamente errate.

Un'altra divagazione: immaginate di fare tutta una serie di test che individui una singola variabile, ma che in ognuno di essi venga utilizzata una scala diversa. Sarà ovvio che nel momento in cui cercheremo di mettere insieme tutte le variabili per evidenziare quale sia quella più significativa, e quindi disegnare la nostra curva, dovremo fare in modo che ogni punteggio sia paragonabile a tutti gli altri. Pertanto si usa la formula del punto z di cui abbiamo già parlato e che appunto serve a standardizzare i punteggi e per renderli tutti confrontabili tra loro. 

Per oggi concludo qui.