Re: Uso corretto del coefficiente di correlazione nell'analisi dei dati.

From: Luca85 <pres8_at_pres8.biz>
Date: Fri, 7 Sep 2012 09:31:25 -0700 (PDT)

Rispondo qua ad entrambi, visto che avete molti punti in comune!

On 3 Set, 13:46, neurino <lelli.l..._at_googlemail.com> wrote:

> Dipende dal tipo di relazione che hai in mente e dal problema che stai
> analizzando.
>
> Di fatto il coeff. di correlazione non sempre e' la misura d'esistenza
> di una relazione generica tra due variabili random (X e Y). Potrebbe
> benissimo essere che esista invece una relazione non lineare,
> deterministica, ma che dia un coeff.correlazione = 0. Quindi si puo'
> dire che il coeff. di correlazione misura solo il grado di relazione
> lineare tra X e Y. A questo punto ti puoi chiedere se esista una
> relazione funzionale non lineare tra X e Y.

Ecco, questo lo so. E qua nasce il mio problema. Non cosa sia o che
propriet� abbia il coefficiente di correlazione lineare di Pearson,
bens� come vada interpretato.
Perch� se dei dati sono descritti da una relazione lineare allora il
coefficiente di correlazione sar� "significativamente diverso da
zero". Per� conosco una serie di casi dove il viceversa non vale (r!
=0, significativamente, ma relazione tra i dati non lineare o assente.
Il quartetto di Anscombe che citavo nel messaggio originale contiene 3
casi lampanti, di natura diversa, al riguardo). E quello che serve
nell'analisi di dati sperimentali � proprio in questa direzione
(trovare dai dati la conferma della relazione, non trovare che r �
altro se so gi� che la relazione c'�).
E questo invece non avviene. O almeno non nel senso intuitivo che uno
darebbe alla cosa, forse nel senso matematico. Penso che chiunque di
noi si sar� trovato almeno una volta con una nuvola di dati
perfettamente sferica, almeno visivamente. Analizzandoli ci si ritrova
con un ridicolo r=0.25 (e gi� a 0.4 lo scatter plot � assai
"sferico"). Eppure se i nostri punti erano 100 punti, si ha una p<0.01
(cos� a memoria...ma pi� o meno siam l�).

Come posso interpretare il fatto che mi ritrovo con un indice di
correlazione lineare significativamente diverso da zero anche se i
miei dati mi verrebbe da definirli "tutt'altro che correlati"?

Perch� il caso pi� tipico che mi ritrovo ad osservare � quello per cui
si presentano dei dati due variabili, si calcola l'indice di
correlazione e poi si commenta: "esiste una relazione tra le due
variabili". E' corretto questo modo di fare? (spero di riuscire a
trasmettere il mio dubbio, so di essere impedito nella comunicazione!)

Vi faccio un esempio pratico. Se avete accesso comodo online a
pubblicazioni scientifiche potete anche vedere cosa mi ha fatto
scaturire il post (dopo un ripasso inconcludente dell'argomento)
Anche se non l'avete comunque il problema � chiaro lo stesso.

Leggevo l'articolo: Effects of type 2 diabetes mellitus on coronary
microvascular function and myocardial perfusion in patients without
obstructive coronary artery disease di Marciano et. al.

European Journal of Nuclear Medicine and Molecular Imaging
Volume 39, Number 7 (2012), 1199-1206, DOI: 10.1007/s00259-012-2117-9

Nella figura 2 c'� uno scatter plot di variabili assolutamente slegate
tra di loro. L'autore calcola r e per via di un paio di outlier trova
r=0.4, p=0.004 e conclude che "c'� una correlazione tra le due
grandezze in questione". Lasciamo stare il problema che la
correlazione sia dovuta agli outlier. Ma che conclusione � "c'� una
correlazione tra le grandezze in questione"? Qual � il corretto
significato di questa frase?
Per meglio chiarire il problema e rapportarlo al caso generale: cosa
pu� dire il ricercatore attento all'uso corretto della statistica dopo
aver visto un r>0 tra la riserva coronarica e la glicemia a riposo?
Pu� affermare qualcosa? Oppure pu� esclusivamente dire: "r � maggiore
di 0"
Alla fine un indicatore statistico ha un interessequando permette di
fare affermazioni sui dati, non quando permette di fare affermazioni
sull'indicatore stesso!

Cito questo perch� � stato il "casus belli", ma non � n� il primo n�
l'ultimo a fare questa cosa. E' un modo di fare piuttosto comune, pi�
nelle scienze di difficile quantificazione e senza modelli numerici
teorici a supporto. La medicina � "borderline", per cos� dire. Dove ci
sono modelli teorici a supporto uno misura direttamente la
compatibilit� tra il modello ed i dati.

E' corretto questo modo di fare? E se non lo �, perch�? E se lo �,
perch�?
Mi sembra una questione estremamente sottile.

Poi c'� un altro caso di uso del coefficiente di correlazione che mi
lascia dubbioso. Ma questo sono quasi del tutto sicuro che sia errato.
La comparazione di due tecniche di misura. S� prende la tecnica A e si
analizzano dei campioni, si prende la tecnica B e si analizzano gli
stessi campioni. Poi si calcola la correlazione. E, magicamente, si
trova quasi sempre r>0.99, con p<1e-9. E si conclude che le tecniche
di analisi son compatibili, vista la p cos� bassa. E questo mi sembra
assurdo.
E' ovvio che otterr� sempre e comunque un r altissimo se le due
tecniche appena appena danno risultati che minimamente hanno a che
fare con la grandezza che voglio misurare. A patto di usare un range
di dati sufficientemente grande rispetto alle varianze.
Ma questo mi vuol dire che A e B son compatibili? Arduo da dire!
Potrebbe benissimo essere che B mi misura il doppio di A o che mi
misura A+0.5! O anche A^2, avrei comunque r~1 per dati non attorno
allo zero.

Anche se qua gi� vedo un problema a priori, ossia quello di voler
vedere se due sistemi di misura son compatibili tra di loro senza un
gold standard di riferimento, mentre la statistica mi pu� dire solo se
non lo sono.

> Dato che il coeff. di correlazione si usa nell'assunzione che Y dipenda
> linearmente da una X random, per fare una regressione si usa il metodo
> dei minimi quadrati (sebbene si potrebbero usare altre metriche).
>
> Alcune volte non e' la scelta migliore, ma si usano i minimi quadrati
> per la seguente (convincente) ragione: una conseguenza del teorema di
> Gauss-Markov e' che i parametri risultanti da una regressione ai minimi
> quadrati di una serie stazionaria di misure (fintanto che gli errori
> sono indipendenti, con media zero e varianza costante e finita) siano
> asintoticamente i migliori (= varianza minima).

Questa non l'ho capita. Mi � chiaro perch� fare una regressione coi
minimi quadrati, ma non mi � chiaro addirittura in tutto questo il
coefficiente di correlazione entrerebbe nei conti.

Spero di aver esposto chiaramente il mio dubbio!
Received on Fri Sep 07 2012 - 18:31:25 CEST

This archive was generated by hypermail 2.3.0 : Sat Jan 04 2025 - 04:23:31 CET