Uso corretto del coefficiente di correlazione nell'analisi dei dati.
Nel primo corsuccio di statistica del primo anno di fisica ci � stato
spiegato il coefficiente di correlazione lineare, e al presentarsi di
alcuni dubbi da alcuni studenti la professoressa ha tagliato corto
spiegando che "non deve mai essere usato". Senza entrare nel merito
della cosa. Ripensandoci anni dopo, ed avendo a che fare con un campo
ove alle volte viene usato, la medicina, mi vengono svariate domande.
Effettivamente lo vedo spesso usato come indice della presenza di una
relazione. E gi� questo mi mette sull'allarme in quanto sono abituato
a non provar nulla come vero, solo a provare qualcosa come "non
falsificato stante i dati a disposizione". Perch� la probabilit�
associata che si calcola � quella per cui "dei dati distribuiti
casualmente darebbero un indice di correlazione maggiore di quello
trovato". Che ha senso, per carit�. Ma il fatto che i miei dati
abbiano un indice di correlazione pi� alto di quello che ne avrebbero
degli altri scelti a caso, cosa mi implica?? Che c'� una relazione tra
le mie X e le mie Y? Salto azzardato. E che vuol dire: "c'� una
relazione"? Mica dice quale, che legge segue e via dicendo... Senza
contare le "relazioni" che danno indici di correlazione nulli.
Senza contare poi il fatto da ricordare sempre per cui la correlazione
non implica la causalit�. Detto questo poi mi sono pure imbattuto nel
"quartetto di Anscombe" che mostra quattro casistiche di dati con
indice di correlazione alto e con retta di regressione uguale, dove in
realt� in un solo caso su quattro tutto questo � corretto nel senso
comune della cosa.
Detto tutto ci� mi chiedo: esiste un uso corretto di questo indice
nell'analisi dei dati sperimentali? Se s� qual �? mi potete fare degli
esempi?
Perch� ho letto ad esempio su wikipedia una frase che mi ha lasciato
sbigottito che ora non riesco a ritrovare; si sosteneva che ad esempio
nel verificare leggi fisiche con strumenti di precisione la
correlazione non fosse un'indicatore utile visti tutti i suoi
problemi, la sua poca significativit� e la presenza di strumenti
statistici pi� adeguati. Mentre al contrario sosteneva che fosse di
estrema importanza nelle scienze sociali dove difficilmente si possono
usare altri test statistici.
Ma se un test � poco robusto e indica un qualcosa di mal-definito...
Dar� risultati confondenti in ogni campo di applicazione, tanto pi� in
quelle applicazioni per cui i dati originali sono "peggio definiti". O
erro?
Received on Mon Aug 27 2012 - 14:13:01 CEST
This archive was generated by hypermail 2.3.0
: Fri Nov 08 2024 - 05:10:07 CET