Re: Uso corretto del coefficiente di correlazione nell'analisi dei dati.

From: neurino <lelli.luca_at_googlemail.com>
Date: Mon, 3 Sep 2012 13:46:55 +0200

On 2012-08-27 14:13:01 +0200, Luca85 said:

> Nel primo corsuccio di statistica del primo anno di fisica ci � stato
> spiegato il coefficiente di correlazione lineare, e al presentarsi di
> alcuni dubbi da alcuni studenti la professoressa ha tagliato corto
> spiegando che "non deve mai essere usato". Senza entrare nel merito
> della cosa.

Presumibilmente una posizione conservativa della professoressa, che
temeva un abuso del concetto, conoscendo la tendenza degli studenti a
semplificarsi la vita.

> Ma il fatto che i miei dati abbiano un indice di correlazione pi� alto
> di quello che ne avrebbero degli altri scelti a caso, cosa mi implica??
> Che c'� una relazione tra le mie X e le mie Y?
> E che vuol dire: "c'� una relazione"? Mica dice quale, che legge segue
> e via dicendo... Senza contare le "relazioni" che danno indici di
> correlazione nulli.

Dipende dal tipo di relazione che hai in mente e dal problema che stai
analizzando.

Di fatto il coeff. di correlazione non sempre e' la misura d'esistenza
di una relazione generica tra due variabili random (X e Y). Potrebbe
benissimo essere che esista invece una relazione non lineare,
deterministica, ma che dia un coeff.correlazione = 0. Quindi si puo'
dire che il coeff. di correlazione misura solo il grado di relazione
lineare tra X e Y. A questo punto ti puoi chiedere se esista una
relazione funzionale non lineare tra X e Y.

> Detto tutto ci� mi chiedo: esiste un uso corretto di questo indice
> nell'analisi dei dati sperimentali? Se s� qual �? mi potete fare degli
> esempi?

Si potrebbero farne tanti, perche' e' applicato in tanti campi, ma da
solo non basta mai. Ispezionare le varianze di X e Y e' una naturale
estensione. Oppure, siccome prima hai accennato alla medicina, si usa
la principal component analysis (PCA), una trasformazione delle tue X e
Y originali in un set di variabili nuove (questa volta non correlate
tra loro), delle quali solo una piccola porzione possa spiegare la
maggior parte delle (co)varianze di X e Y.

> Perch� ho letto ad esempio su wikipedia una frase che mi ha lasciato
> sbigottito che ora non riesco a ritrovare; si sosteneva che ad esempio
> nel verificare leggi fisiche con strumenti di precisione la
> correlazione non fosse un'indicatore utile visti tutti i suoi
> problemi, la sua poca significativit� e la presenza di strumenti
> statistici pi� adeguati. Mentre al contrario sosteneva che fosse di
> estrema importanza nelle scienze sociali dove difficilmente si possono
> usare altri test statistici.

Di scienze sociali non so nulla, bisognerebbe fare degli esempi.
Comunque un argomentazione per continuare ad usare il coeff. di
correlazione lineare e' la seguente.

Dato che il coeff. di correlazione si usa nell'assunzione che Y dipenda
linearmente da una X random, per fare una regressione si usa il metodo
dei minimi quadrati (sebbene si potrebbero usare altre metriche).

Alcune volte non e' la scelta migliore, ma si usano i minimi quadrati
per la seguente (convincente) ragione: una conseguenza del teorema di
Gauss-Markov e' che i parametri risultanti da una regressione ai minimi
quadrati di una serie stazionaria di misure (fintanto che gli errori
sono indipendenti, con media zero e varianza costante e finita) siano
asintoticamente i migliori (= varianza minima).
Received on Mon Sep 03 2012 - 13:46:55 CEST

This archive was generated by hypermail 2.3.0 : Fri Nov 08 2024 - 05:10:06 CET