Re: [semi-OT] "media pesata ... convergiuta" ?

From: *GB* <gb_zx_at_ymail.com>
Date: Thu, 10 Nov 2016 13:03:15 +0100

Soviet_Mario ha scritto:

> Si : in realtà sto migliorando un valutatore automatico di dati
> "auto-certificati", e laddove prima ottimizzavo i pesi solo a mano, ora
> sto cercando di rendere più auto-pesante l'algoritmo. Sicché ho la
> necessità di rendere più solide le medie, "ripulendole" per quanto
> possibile dall'influenza nefasta di dati taroccati o contenenti sviste
> di compilazione etc.
> Questo candita automaticamente i dati estremali. Che, nota, non è detto
> che siano per forza taroccati o errati (se no li avrei semplicemente
> esclusi !), ma diciamo che invece i dati mediani sembrerebbero molto
> probabilmente dati privi degli errori suddetti (sicché devono venire
> sovrapesati in automatico).

Parto da questa tua considerazione sui dati mediani senza errori.

> In assenza di indicazioni precise, ho pensato che l'esponente uno,
> lineare, fosse il più neutrale.
>
> Più che altro perché esponenti maggiori di uno, applicati
> ricorsivamente, ho temuto che mi facessero convergere la media sulla
> mediana o cose simili.

Se ti inventi un sistema complicato di cui tu stesso non sei sicuro,
potrebbero contestare il tuo sistema di valutazione, poi tu che fai?

>> Se proprio devo tirare a indovinare :-(, forse gia' la semplice
>> media aritmetica dei dati (calcolata una sola volta) potrebbe
>> bastare...
>
> non è molto robusta a prova di furbastro in realtà. Ho visto l'esito del
> valutatore ed era permeabile a dati anomali, perché non li compensava in
> nessun modo.

Allora leggiamo questo che scrive Wikipedia sulla mediana:

   https://en.wikipedia.org/wiki/Median

   The basic advantage of the median in describing data compared to
   the mean (often simply described as the "average") is that it is not
   skewed so much by extremely large or small values, and so it may give
   a better idea of a 'typical' value. For example, in understanding
   statistics like household income or assets which vary greatly, a mean
   may be skewed by a small number of extremely high or low values.
   Median income, for example, may be a better way to suggest what
   a 'typical' income is.

   Because of this, the median is of central importance in robust
   statistics, as it is the most resistant statistic, having a breakdown
   point of 50%: so long as no more than half the data are contaminated,
   the median will not give an arbitrarily large or small result.

Quindi se tu vuoi qualcosa di più vicino alla media, la soluzione
più semplice sarebbe di usare una media (aritmetica, ma puoi provare
anche con quella geometrica o quella armonica) di media e mediana.

Almeno, questo è ciò che farei io al tuo posto. Le funzioni necessarie
ci sono già in Excel e basta immettere i tuoi valori in una colonna
per calcolarne ad esempio: =MEDIA(MEDIA(A1:A40);MEDIANA(A1:A40))
(per le altre medie, userai MEDIA.GEOMETRICA e MEDIA.ARMONICA).

Bye,

   *GB*
Received on Thu Nov 10 2016 - 13:03:15 CET

This archive was generated by hypermail 2.3.0 : Fri Nov 08 2024 - 05:09:56 CET