htlws

Mentire con le statistiche


La statistica e l’arte di dare una seconda occhiata


Recensione su Sis-Magazine
rivista della Società Italiana di Statistica

15 maggio 2008



Nel luglio scorso, a cura di Giancarlo Livraghi e del sottoscritto, è uscita la prima edizione italiana di How to Lie with Statistics di Darrell Huff (Mentire con le statistichehttp://htlws.it), che è stato pubblicato negli USA nel 1954 e molto probabilmente è il libro di statistica più venduto al mondo.

Si tratta di un agile libro divulgativo incentrato sull’uso dialettico e, per così dire, manipolativo dei dati statistici. Con l’espressione “uso dialettico e manipolativo” mi riferisco allo scopo di persuadere gli interlocutori che una data interpretazione della realtà sia fortemente supportata dai dati statistici, benché ciò non sia vero, oppure tale interpretazione sia soltanto una delle tante che sono compatibili con quegli stessi dati.

A prima vista, il titolo del libro potrebbe far supporre che esso contenga un armamentario di tecniche retoriche e strumenti statistici, che possono essere appunto utilizzati con la finalità di ingannare un interlocutore. In realtà tutto il testo è congegnato piuttosto come un manuale di difesa contro chi fa un uso doloso della statistica.

A tale proposito, è interessante ricordare come Darrell Huff, l’autore del libro, non fosse uno statistico di professione, ma un giornalista, il quale – pur da dilettante – padroneggiava in maniera rigorosa la materia ma nel contempo, per motivi professionali, aveva un vantaggio comparato nell’analizzarne e descriverne gli usi ingannevoli. Infatti, come possiamo quotidianamente osservare, gli articoli giornalistici sono spesso infarciti di dati statistici, che vengono piegati alla dimostrazione di tesi che nulla hanno a che fare con quei dati stessi, a volte con il solo scopo di fare del sensazionalismo.

Nella nostra traduzione abbiamo cercato di preservare lo stile spiritoso e leggero di Huff, a cui ben si accordano le vignette argute di Irving Geis, che appartengono all’edizione americana e i cui testi sono stati ugualmente tradotti. Il libro è organizzato in agili capitoletti, che passano in rassegna i diversi inganni statistici più frequentemente utilizzati, mettendoli in relazione con la teoria statistica corretta. Tale teoria viene presentata in maniera informale ma rigorosa, ovvero focalizzandosi sul concetto centrale, ma evitando ogni formalizzazione matematica.

La capacità, da parte di Huff, di essere preciso (anzi: spiritoso e preciso) senza dover ricorrere alle formule matematiche è a mio parere uno delle ragioni principali del successo editoriale di questo libro: dal momento che le conoscenze matematiche mediane del pubblico sono piuttosto scarse, l’unico modo praticabile per fare divulgazione a proposito di un tema per se stesso matematicamente formalizzato come la statistica consiste nel percorrere la strada stretta dell’argomentazione verbale rigorosa. E largamente condita da esempi.

Come accennavo sopra, i diversi capitoli del libro affrontano tutti i principali raggiri retorici che la statistica consente, quando non si abbia ben presente la teoria sottostante. Si inizia con una dettagliata panoramica sul tema del campione distorto, cioè di un gruppo di individui appartenenti ad una popolazione che dovrebbe essere rappresentativo della popolazione originale, ma che per varie ragioni non è tipico della popolazione stessa rispetto a certe caratteristiche.

Come è facile immaginare, la ragione principale discussa da Huff è quella della “auto-selezione” (self selection), ovvero il fatto che gli individui appartenenti al campione non sono scelti in maniera casuale ma in qualche modo sono maggiormente indotti ad entrare nel campione stesso, come ad esempio accade se essi possono decidere se farsi intervistare o no.

Un capitolo godibilissimo è poi quello dedicato allo smascheramento degli inganni che si annidano nei grafici statistici. Qui Huff pone l’accento, in particolare, sul modo in cui i grafici possono essere manipolati a fini sensazionalistici, ovvero con lo scopo di mostrare al pubblico andamenti che “fanno notizia”, anche se i dati originali non hanno nulla di straordinario.

Un modo semplice per ottenere tale effetto consiste nel rappresentare sull’asse delle ordinate l’andamento temporale di una certa grandezza (ad esempio la quotazione di un titolo azionario) che ha un livello medio elevato e che ad un certo punto ha avuto un calo o un incremento più ampio del normale. Il trucco consiste nel tagliare la parte bassa delle ordinate, cosicché per l’occhio disattento ogni calo appaia come un terribile crollo ed ogni incremento sembri un’inebriante exploit. È difficile trovare un giornale o una rivista che sappia resistere alla tentazione di troncare i grafici temporali: la giustificazione tipica sta nella presenza di tirannici vincoli di spazio, ma nel frattempo l’inganno ottico riesce sempre a farla franca.

[Vedi Il morbo di powerpoint].

Un altro capitolo davvero interessante riguarda la differenza cruciale tra correlazione e causazione, tema su cui tutti gli scienziati che non dispongono di un setting sperimentale adeguato si rompono il capo ogni giorno. Quando due grandezze X e Y appaiono correlate nel tempo e/o nello spazio, con X che anticipa i movimenti di Y oppure è predeterminata rispetto a Y, la tentazione più comune è quella di supporre l’esistenza di un legame causale che va da X a Y. Eppure, bisognerebbe verificare se non esista una terza grandezza Z (la cosiddetta variabile omessa) che muove sia X che Y, oppure è comunque correlata con entrambe le variabili osservate.

Per un economista di formazione, il caso tipico è la relazione esistente tra salario (Y) e anni di istruzione (X), che a sua volta si basa sull’idea che il capitale umano accumulato permetta di guadagnare di più durante la vita lavorativa successiva. Come sottolineato dallo stesso Huff, si rischia di attribuire un’influenza eccessiva all’istruzione se si dimentica di considerare il ruolo giocato dall’abilità del singolo individuo, oppure dalle connessioni della famiglia di origine, che sono variabili correlate positivamente sia con il salario che con gli anni di istruzione.

Giancarlo Livraghi e io abbiamo aggiunto, prima e dopo la traduzione del testo inglese, ampi aggiornamenti e approfondimenti, con molti esempi significativi che si aggiungono a quelli raccolti da Darrell Huff. E anche un’antologia di citazioni (alcune molto serie, altre ironicamente incisive) di vari autori a proposito di statistica. Lo scopo di questi pezzi “a corredo” è quello di arricchire il testo originale, enfatizzandone il valore e l’ineliminabile attualità.

Da parte mia, sono convinto che il messaggio principale di questo libro consiste nell’invitare il lettore a dare “una seconda occhiata” a qualsiasi interpretazione o “verità” che sembri essere supportata da un certo insieme di dati statistici. Questa seconda occhiata (espressione più volte utilizzata dallo stesso Huff) ha lo scopo di indagare – alla luce della teoria statistica corretta – quanto sia robusto il nesso tra quei dati e quell’interpretazione, e quali siano le possibili intenzioni fraudolente (o gravemente colpevoli) di chi vuole convincerci dell’esistenza di questo nesso.

Inondati come siamo da dati statistici chiamati a supporto delle teorie più furbe o strampalate, è difficile trovare il tempo per rispondere con un pari numero di seconde occhiate, ma il libro di Huff ci rende più facile il compito, insegnandoci le giuste tecniche di difesa, o perlomeno ci rende noto, con atteggiamento argutamente socratico, quanto queste seconde occhiate sarebbero necessarie.


Riccardo Puglisi





homepage
home