12 dicembre 2014

Astrologia e statistica. 16^ parte.

Oggi tratteremo un po' di argomenti. Cominciamo dalla distribuzione binominale ovvero di tutti quei casi in cui sappiamo che le uniche possibilità di un esito sono solo due come per esempio il lancio di una monetina. 
Come facilmente intuibile, da un lancio abbiamo  il 50% delle probabilità che possa uscire testa  e un 50% croce. 

Ma spingiamoci oltre con un esempio più complicato. Immaginiamo di essere al buio e di avere ai piedi le nostre pantofole ma di non riuscire a vedere quale sia la sinistra e quale la destra. Mettiamo di voler capire quante probabilità abbiamo di infilarci 7 volte la pantofola giusta su 10 tentativi. 
La formula è questa: 

 ((n!)/r!(n-r)!)x p (elevato a r)x q (elevato alla n-r)

 (! significa fattoriale e ne abbiamo già parlato nei primi articoli)
dove "n" è il numero delle prove (10), "r" il numero degli esiti favorevoli (7), "p" è la probabilità per ogni prova (è il 50% perché la pantofola può essere solo quella giusta o quella sbagliata) e "q" è  1-p (uno sta a 100% meno la probabilità di "p" che era 50%: dunque 100%-50%=50% e dunque 1-p=50%).

Vediamo il calcolo:
((10!)/7!x(10-7)!)x0,5 (elevato a 7)x 0,5 (elevato a 10-7=3)= 0,1172 che corrisponde all'11,72%.

Il ! (fattoriale) ci permette di calcolare probabilità superiori a due prove. In questo ultimo caso, ipotizzando due lanci di una moneta e volendo calcolare quante probabilità possa uscire testa è pari al 25%.
Infatti, per due lanci abbiamo che:
1) sia al primo che al secondo abbiamo due volte testa; (25% su 100%)
2) sia al primo che al secondo abbiamo due volte croce; (idem)
3) al primo abbiamo testa e al secondo croce; (idem)
4) al primo croce e al secondo testa (idem).
Quattro possibilità si distribuiscono con un 25% per ogni caso. In questo caso abbiamo 2! perché le prove sono due. 

Detto questo possiamo concentrarci  su altri concetti, sempre in maniera molto veloce. Parliamo molto brevemente dell'errore standard. 
 Abbiamo la deviazione standard fratto la radice quadrata della numerosità del campione.
Si tratta di stabilire quanto le misure della media dei diversi campioni siano vicine alla media della popolazione (la media o un altro parametro qualsiasi). Il campione deve essere rappresentativo di tutta la popolazione, ovviamente, e quindi probabilistico. In parole semplice, quando si fa una statistica è necessario avere un campione e una popolazione più grande. Il primo sarà confrontato col secondo per stabilire se esistono delle differenze significative. In tal caso possiamo procedere con le nostre ipotesi, che in statistica vengono rappresentate con la lettera "H". In questo esempio possiamo osservare la media della popolazione (140) e la media del campione (138). In questo caso vediamo che la media del  campione si discosta di poco dalla media della popolazione e ricade in una deviazione standard (105).



Alcune volte la media del campione sarà vicina alla media della popolazione, ma altre volte il campione si scosterà significativamente. Prendete due campioni, calcolate la media e poi fate la media tra il primo e il secondo campione. Se noi calcoliamo la media delle diverse medie è ovvio che "mediamente" non ci sarà nessuna differenza tra i risultati ottenuti. E se troviamo differenza nelle medie dei diversi campioni vuol dire che i gruppi sono diversi tra loro oppure che è solo frutto del campionamento. Ma quanto deve essere questo valore per risultare significativo? Se un certo valore esce più del 5% (su 100 campionamenti) delle volte allora questa differenza è data dal caso. Se esce meno del 5% allora vuol dire che abbiamo campioni diversi dalla popolazione. Il 5% è un valore arbitrario stabilito da Fischer e si chiama p-value. Ovviamente si tratta di un valore costruito sulla base di calcoli ben precisi. Tuttavia è consigliabile essere flessibili quando si applica questa regola, a seconda delle situazioni. 

Questa 16^ parte si conclude qui, ma a breve avremo la 17^ dove parleremo delle ipotesi in statistica.