htlws

Mentire con le statistiche


Questo articolo completa alcune osservazioni
contenute nel testo originale
e nei commenti all’edizione italiana
di How to Lie with Statistics di Darrell Huff.



“Dare i numeri”
(il problema delle “false certezze”)

Giancarlo Livraghi – dicembre 2006


Disponibile anche in pdf
(migliore come testo stampabile)



Il primo esempio che vorrei citare, sul problema delle “false certezze” numeriche, può sembrare molto “specialistico” – e interessante solo per chi studia storia della scienza e della tecnologia. Ma ha due aspetti di valore più generale. Uno è intrinseco all’argomento. L’altro riguarda il modo in cui vengono diffusi dati e numeri di ogni specie.

È noto da tempo che nel periodo ellenistico, un po’ più di duemila anni fa, non solo c’era un forte sviluppo scientifico, ma c’erano anche macchine da calcolo di notevole complessità (vedi Il computer di Archimede).

Il 28 dicembre 2006 viene diffusa una notizia sorprendente. Non si trova in qualche superficiale giornaletto sensazionalistico, ma nel sito web di una rivista seria, Scientific American. Elenca The most important science stories of 2006 (“le più importanti notizie scientifiche del 2006”). Fra queste, la scoperta di “un computer di 3000 anni fa”.

L’ipotesi è sconcertante. Tremila anni fa vuol dire collocare quella macchina in un’epoca fra il neolitico e l’inizio dell’età del bronzo. Parecchi secoli prima del periodo in cui, secondo le fonti storiche e le recenti scoperte archeologiche, c’erano sviluppi di quel genere.

Nel sito non c’è alcuna spiegazione sull’origine di quella “notizia”. C’è voluta una ricerca paziente per scoprire che un mese prima, il 29 novembre 2006, la BBC aveva pubblicato un articolo di Jonathan Fildes sulla scoperta di un antico calcolatore meccanico chiamato The Antikythera Mechanism.

Si tratta di numerosi frammenti che, nel 1902, erano stati trovati nel relitto di una nave romana. Sono passati più di cent’anni prima che un gruppo di studiosi fosse in grado di ricostruirne la struttura e il funzionamento.


antikythera
Ricostruzione del probabile aspetto del “meccanismo di Antikithera”


La scoperta è tecnicamente e culturalmente interessante, anche se non è del tutto nuova, perché erano state già trovate altre macchine di quel genere. Ma non c’è alcuno sconvolgimento storico: la “datazione” si colloca fra 2100 e 2200 anni fa. Non tremila.

Un refuso è sempre possibile. Ma è bizzarro che la redazione di una rivista scientifica non si accorga di un errore che cambia di quasi un millennio la storia della scienza, della cultura e della tecnologia.

In un articolo su questo argomento pubblicato da Nature gli scienziati autori di questo studio osservano, correttamente, che quel meccanismo era «tecnicamente più complesso di qualsiasi dispositivo conosciuto nei mille anni seguenti». In realtà sono più di mille anni – circa milleottocento, perché le prime calcolatrici di quel genere in epoca moderna sono state progettate nel diciassettesimo secolo (vedi cronologia). Rilevano inoltre che quel meccanismo non era un “caso isolato” e ce n’erano probabilmente parecchi altri esemplari e varianti nello stesso periodo e nella stessa area culturale.

Un errore di quasi un millennio in una rivista scientifica può sembrare incredibile. Ma gli esempi di numeri sballati, anche da “fonti autorevoli”, sono così tanti che si potrebbero riempire parecchie pagine solo facendone un sommario elenco.

Nel 2007 uscirà, finalmente, l’edizione italiana di un “classico” su questo argomento: How to Lie with Statistics di Darrell Huff. Contiene numerosi esempi di errori non solo in fatto di statistiche, ma anche in generale di numeri e dati di ogni specie.

Fra tanti... ecco due altri casi recenti.

Secondo un articolo pubblicato da L’espresso il 14 dicembre 2006 il comune di Roma, in base ai dati anagrafici, ha 187.700 abitanti più di quelli rilevati dall’Istat – e, in base ad altri calcoli, la differenza potrebbe essere ancora più grande. Non solo questo è un errore del cinque per cento sulla popolazione della città, ma ne risultano anche deformazioni negli indici economici e sociali. Si dice che qualcuno, in quell’istituto, abbia messo per iscritto calcoli aritmetici in cui la somma di 51 + 40 è 89 e 14 + 28 = 39. Può sembrare incredibile – ma basta avere un po’ di esperienza pratica nell’uso delle statistiche e dei calcoli numerici per sapere che errori non meno bizzarri si possono trovare in ogni sorta di fonti “ufficiali” o con apparente credibilità “scientifica”.

Anche per chi – talvolta – “predica bene” è difficile essere “senza peccato”. La stessa rivista, una settimana prima, aveva pubblicato dati ancora più sballati – senza accorgersi della loro incredibilità. La poco significativa “notizia” riguardava l’uso degli avatar, cioè travestimenti nei “giochi di ruolo”. Cosa, comunque, tutt’altro che “nuova”.

Sei anni fa stavo ragionando con Maurizio Boscarol sull’opportunità di mettere questa sua vignetta in un libro che stavo scrivendo (L’umanità dell’internet).


avatar


Sapevamo, tutti e due, che (già allora) era una storia vecchia. Ma, ci siamo detti, comunque è divertente... e il libro è destinato a persone che non hanno molta esperienza della rete... così abbiamo deciso di pubblicarla, ovviamente senza alcuna pretesa che fosse una cosa “nuova”.

Ma in quell’articolo dell’Espresso non si trattava solo di una storia vecchia travestita da “notizia nuova”. C’era anche un numero, in evidenza nel titolo: “sei miliardi di avatar”. Cioè una quantità di “incarnazioni” immaginarie vicina al totale della popolazione umana. Non è difficile capire, conoscendo qualche dato sulla diffusione della rete, che quel numero è sbagliato di almeno tre zeri (se non quattro o cinque). Ma il titolo “a effetto” sembrava attraente – e così la pseudo notizia fu ripresa e diffusa, senza alcuna verifica né attenzione critica, anche da altri giornali. La storia, in sé, è futile – e, dopo qualche settimana di incauta diffusione, è già dimenticata. Ma è un ennesimo esempio di come possano circolare numeri privi di qualsiasi fondamento o significato.

Post scriptum.  Alcuni mesi più tardi sono stati pubblicati dati statistici riguardanti la frequentazione di siti dedicati ai “giochi di ruolo”. Sembra che all’epoca in cui si parlava di miliardi di persone fossero circa 800.000. Naturalmente che qualcuno visiti un sito non vuol dire che partecipi al gioco – e il numero non è gran cosa su scala mondiale (se tentiamo, per esempio, di dedurre una quantità proporzionale in Italia arriviamo a meno di ventimila persone compresi i visitatori occasionali). Comunque è falso dare l’impressione che questa sia un’attività prevalente (si tratta di circa una su mille persone che usano la rete) e i dati che erano stati incautamente diffusi erano sette o otto mila volte qualsiasi ipotesi plausibile. In seguito, altre analisi hanno dimostrato che le dimensioni reali del “fenomeno” sono ancora più piccole. Vedi La bufala degli “avatar”.

Il problema non sta tanto nell’esistenza degli errori, che sono sempre possibili, quanto nella diffusa abitudine di accettare dati sballati e incoerenti come se fossero “certezze” indiscutibili – e di ripeterli ad infinitum senza mai verificarne la credibilità.

Una caratteristica preoccupante dei dati numerici è quella di offrire “false certezze”. La loro apparente precisione induce a pensare che quando qualcosa è espresso in numeri sia più credibile. È raramente vero. Ogni notizia, informazione o affermazione può (e deve) essere sempre messa in dubbio. E quando si basa su numeri (specialmente se non c’è chiarezza sulla fonte e sul significato) ci sono buoni motivi per diffidare ancora di più.





homepage
home