Re: chi-squared test per la verifica della randomicità

From: Elio Fabri <elio.fabri_at_fastwebnet.it>
Date: Fri, 16 Feb 2018 16:18:49 +0100

alvinlovi80_at_gmail.com ha scritto:
> Non sono un tipo da accademia della crusca (e forse sono l'ultima
> persona che può esprimere un'opinione nel merito) ma non sempre
> l'equivalente italiano può essere utilizzato: "topo" al posto di
> "mouse" è alquanto ridicolo... Comunque in questo caso hai ragione.
Non voglio farla lunga sulle questioni linguistiche.
Però un'informazione voglio dartela.
I francesi usano correntemente "souris" che è l'esatto equivalente
dell'italiano "sorcio" ovvero "topo".

> Non possiamo considerare il risultato come casuale ==> il risultato è
> prevedibile
Secondo me non è la stessa cosa.

> Ad intuito ti dò ragione ma è anche vero che dopo un numero molto
> elevato di prove dovrei aspettarmi una distribuzione prossima al caso
> ideale (ovvero la gaussiana).
>
> Se dopo 10000 tentativi (numero di tentativi molto elevato) ottengo
> una distribuzione che è prossima alla gaussiana perché dovrei
> considerare i risultati come "sospetti"? Perché sono molto prossimi
> al caso ideale?
Vedo che insisti sulla gaussiana, ma io voglio insistere sull'esempio
del dado singolo, perché è del tutto equivalente come problema ma è di
gran lunga più semplice da capire.

Il tuo errore sta nel farti trascinare dalle parole, senza sapere (o
tener conto di) quale significato abbiano nel contesto scientifico di
cui stiamo parlando.
Concentriamoci su un singolo numero, per es. il 5.
Che cosa vuol dire "mi aspetto che in molte prove la freq. osservata
sia vicina a 1/6?

Esattamente questo. Essendo p la prob. dell'evento, in una successione
di n prove indipendenti il numero X di risultati favorevoli è una
variabile casuale con distribuzione binomiale.
Le probab. dei possibili esiti, che vanno da 0 a n, sono

p_x = C(n,x) p^x q^(n-x) (q = 1-p).

La media è E(x) = np
La varianza è Var(x) = npq.
Lo s.q.m. è la radice della varianza, ossia sqrt(npq).

Per p = 1/6, n = 120 (mio esempio) avrai s.q.m. = sqrt(50/3) = 4.08.
Avrai una probab. del 68% di uno scarto dalla media inferiore allo
s.q.m., quindi nel nostro caso (media 20) tra 16 e 24.

Come vedi dalle formule che ho scritto, lo s.q.m. va come sqrt(n).
Se quindi prendiamo n 100 volte più grande (n=12000) lo s.q.m. sarà
circa 40, la media 2000, e ti devi aspettare valori di X tra 1960 e
2040 nel 68% dei casi.
In termini relativi, la fluttuazione al 68% è 4/20 = 0.2 per n=120,
mentre è 40/2000 = 0.02 per n=12000.

Questo significa in termini semplici (esiste un preciso enunciato come
teorema) che la frequenza "si avvicina" alla probab. al crescere del
numero di prove.
Si avvicina, ma senpre con un certo campo di fluttuazione.

Ora accade che la formula del chi^2 (guardala) tiene conto di questo,
perché a num. ha il quadrato dello scostamento dal valore atteso
(media); a denominatore ha (circa) la varianza.
Tanto il num. quanto il den. crescono allo stesso modo al crescere di
n, per cui il valore atteso per chi^2 è pressoché indip. da n:
all'incirca uguale al n. di gradi di libertà, quindi 5 nell'esempio del
dado.

Ecco perché sia un vaore troppo grande di chi^2, sia un valore troppo
piccolo, sono sospetti.
Il primo caso indica che la vera distrib. di probab. non è quella con
cui stai facendo i conti.
Il secondo caso dice che gli eventi non sono del tutto casuali; cosa
che può avvenire per diverse ragioni: caso più banale, perché il dado è
truccato.
                                                   

-- 
Elio Fabri
Received on Fri Feb 16 2018 - 16:18:49 CET

This archive was generated by hypermail 2.3.0 : Fri Nov 08 2024 - 05:09:56 CET