Un articolo di Giancarlo Livraghi
nella
rivista
ottobre 2009
Disponibile anche in
pdf
(migliore come testo stampabile)
Il pollo
di Trilussa
e gli inganni delle statistiche
La matematica si usa dire
non è unopinione.
Ma molte valutazioni numeriche
sono opinabili.
La materia è complessa, ma alcuni criteri
di buon senso
possono aiutarci a capire un po meglio
il
significato di dati e statistiche.
Siamo inondati dalle statistiche. Su ogni sorta di argomenti ci somministrano numeri di ogni specie. Raramente abbiamo il tempo di chiederci che cosa vogliano dire (se non, talvolta, nei casi vistosi in cui sulla stessa cosa si pubblicano e si diffondono dati completamente diversi).
Anche molte notizie e valutazioni che non sono esplicitamente numeriche derivano da qualche specie di dato statistico che non è neppure citato, perciò si rischia di crederci senza sapere su che cosa è basata unopinione troppo spesso presentata come se fosse un fatto o unincontestabile verità.
Lo fanno apposta? Spesso si. Dati e statistiche si possono manipolare per tentare di dimostrare questa o quella tesi, ipotesi o preconcetto. Ma è ancora più frequente che si tratti di errori o superficialità cose citate o riferite senza verificarne lattendibilità o il significato. Non è raro che siano in gioco tutti e due i fattori (deformazioni consapevoli e stupidaggini involontarie) con conseguenze che sarebbero comiche se non fossero pericolose.
Lewis Carroll, al secolo Charles Dodgson, non scriveva solo le ambigue favole di Alice. Era un matematico. Questa è una sua osservazione. «Se vuoi ispirare fiducia, dai molti dati statistici. Non importa che siano esatti, neppure che siano comprensibili. Basta che siano in quantità sufficiente».
Cè chi si diverte a fare statistiche bizzarre, su argomenti futili e inutili. Sarebbe solo una curiosità se in quel modo, con ogni sorta di errori e approssimazioni, non si inquinassero anche i pettegolezzi e le mode.
Cè chi si diverte a propalare numeri completamente inventati, per vedere leffetto che fa e se ne sta incuriosito a vedere quanti ci cascano (come fanno gli inventori di leggende metropolitane, di cui alcune nascono per caso, ma altre sono seminate apposta per verificare la credulità non solo dellumanità in generale, ma anche dei grandi sistemi di cosiddetta informazione).
Ma le statistiche sono una cosa seria. Usate bene, sono uno strumento di notevole utilità. Lo sa per esperienza chi, come me, si è trovato molte volte a doversene servire per motivi di studio e di lavoro. E poiché ne deve trarre conseguenze significative, è costretto a capire come funzionano e perciò ad approfondire lorigine e la natura dei dati. Spesso scoprendo che il significato è molto diverso da quello che sembra (o che i numeri sono privi di significato ed è necessario non tenerne conto per non cadere in pericolosi errori).
Così ho imparato molto e continuo a imparare. Non dal punto di vista di chi produce dati, ma da quello di chi li usa per trarne deduzioni concrete. E se non vuole sbagliare deve capire bene qual è lorigine dei numeri e come si possono interpretare.
Il fascino dei numeri pro e contro
Prima di parlar male dei numeri è necessario dirne bene. Sono uno strumento essenziale della ricerca scientifica.
Non è vero che, come alcuni affermano, la matematica sia usata dalla scienza solo nellevo moderno. Benché in modo meno complesso, era uno strumento della conoscenza (e della tecnologia) anche nellantichità. Vedi Il computer di Archimede sulluso di macchine da calcolo in epoca ellenistica.
Perfino uno come me, ignorante e impreparato nelle sottigliezze delle formule e dei calcoli, è affascinato dallevoluzione degli studi sullinfinitamente grande e sullinfinitamente piccolo, dalla molteplicità di scoperte nella fisica, nella biologia, eccetera. Non è insensato dire che la vita è un algoritmo. Ma non bastano le formule matematiche per capire che cosa significa.
Naturalmente anche agli estremi confini della conoscenza ci sono incertezze, dubbi, diversità di interpretazione. Sono così sottili che possono essere capite solo da studiosi con una specifica competenza in materie difficili e complesse. Ma è chiaro il pensiero di Albert Einstein. «Quando le regole della matematica si riferiscono alla realtà non sono certe e quando sono certe non si riferiscono alla realtà».
Se questo è vero alle frontiere estreme della ricerca scientifica, lo è ancora di più nel caso dei dati che imperversano su cose più semplici e facilmente comprensibili. Il fascino dei numeri può essere falso e bugiardo. Non è vero che qualsiasi baggianata diventa verità quando è espressa in termini numerici. Spesso è vero il contrario. E perciò è utile capire quali sono gli errori e gli inganni delle statistiche.
Si dice che le statistiche siano uninvenzione recente (nel diciassettesimo secolo più diffusamente nel diciannovesimo). Ma, se fosse così, come si spiegherebbe il commento di Platone? «Sappiamo bene che queste argomentazioni basate sulle probabilità sono imposture e se non abbiamo molta cautela nel loro uso possono essere ingannevoli». Anche nel mondo antico si ragionava sulle probabilità. E anche allora si sapeva che non è facile.
La statistica è unarma?
Le statistiche non uccidono (se non in alcuni casi, come quando sono lorigine di un errore medico o della mancata prevenzione di un disastro). Ma linformazione è unarma, spesso usata come tale. Lo insegnava Sun Zu, nel suo trattato sullarte della guerra. E lo sapevano bene, prima di lui, anche altri, lontani dalla Cina.
Per esempio le potenti legioni romane vincevano non solo per la forza delle armi, lefficacia delle strategie e laddestramento dei militi, ma anche perché sapevano come avere informazioni e come confondere quelle dellavversario.
E lesito della guerra di Troia potrebbe essere stato diverso se i troiani avessero dato retta a Cassandra e a Laocoonte invece di cadere nellinganno del cavallo.
Così è stato nei secoli e nei millenni. E così è ancora oggi. Le statistiche sono uno strumento dellinformazione, perciò sono utili in guerra, per organizzarsi in modo vincente se si hanno dati validi e anche per ingannare gli avversari con numeri falsi o manipolati. Diceva Winston Churchill: «le sole statistiche di cui ci possiamo fidare sono quelle che abbiamo falsificato».
Ma anche quando non si tratta di imprese militari sono unarma nei conflitti o contrasti politici, economici, commerciali e culturali. E anche quando, anziché competere, si cerca unintesa.
Si vince con le statistiche avendo informazioni migliori, più attendibili e perciò più utili. Ma non basta avere dati. Si tratta anche, o soprattutto, di saperli capire e gestire.
Trilussa e il pollo
La più proverbiale osservazione a proposito delle medie statistiche è quella per cui se qualcuno mangia un pollo, e qualcun altro no, in media hanno mangiato mezzo pollo. (Ce ne sono altre di uguale significato, come il caso di una persona annegata in un fiume con un profondità media di mezzo metro).
Losservazione non è così ovvia come può sembrare. Ma cominciamo col fatto che lorigine è un bel sonetto di Trilussa (che definisce il problema in modo un po diverso).
La Statistica
Sai chedè la statistica? È na cosa
che serve pe fa un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che sposa.
Ma pe me la statistica curiosa
è dove centra la percentuale,
pe via che, lì, la media è sempre eguale
puro co la persona bisognosa.
Me spiego: da li conti che se fanno
secondo le statistiche dadesso
risurta che te tocca un pollo allanno:
e, se nun entra ne le spese tue,
tentra ne la statistica lo stesso
perché cè un antro che ne magna due.
Ai tempi di Trilussa mangiare pollo era considerata una cosa da ricchi.
Oggi la situazione è diversa. Ma non cambia il significato del ragionamento.
La fonte originale è meglio della vulgata. Non solo per lo stile e per lumorismo, ma anche perché imposta il concetto in modo più chiaro.
Oggi, con una più evoluta cultura della statistica, nessuno cade più in quel genere di errore? La cosa non è così semplice. I dati possono essere generati e interpretati in modi diversi, spesso portando a risultati intenzionalmente ingannevoli o sbadatamente deformanti.
Ci si dimentica, un po troppo spesso, che la media è un dato poco significativo se non sappiamo a che cosa si riferisce, su quale base è calcolata, con quale criterio è definita. Come dice, beffardo, Des McHale, «lumano medio ha una mammella e un testicolo». Più seriamente Aldous Huxley ci ha insegnato che «nella vita reale non cè alcun uomo medio».
La media, comunque calcolata, è un concetto astratto. Una delle poche certezze assolute della statistica è che ciò che è medio non esiste. Ogni cosa si colloca necessariamente sopra o sotto il dato medio. E non è solo una questione di aritmetica.
Luomo medio non esiste
Sarebbe lungo riassumere i molteplici problemi di complesse diversità che possono essere ingestibili se si basa a una media, comunque calcolata. Ma limportante è diffidare di ogni concetto standardizzato, anche quando non è espresso in forma di media numerica.
Per esempio accade spesso di leggere o sentir dire che tutti fanno o pensano qualcosa. Con un po di approfondimento non è difficile scoprire che quei tutti in realtà sono pochi o che una certa media, chissà come calcolata, non riflette alcuna persona o situazione reale.
Se è facile capire che tutti mangiano mezzo uovo al giorno è unaffermazione priva di senso, perché cè chi ne mangia di più e chi di meno, altre generalizzazioni altrettanto false sono più insidiose. È sempre bene ricordare che la media è solo un indice numerico, il cui significato può variare molto secondo i fattori di dispersione dei dati e secondo i criteri di analisi adottati in ciascun caso.
A proposito di polli e di uova, cè il caso di una pessima gestione delle statistiche e dei dati numerici nella tragicomica epidemia di infondate paure per una infezione aviaria nel 2005 come è spiegato a pagina 195 di Mentire con le statistiche, un libro di cui si parlerà poco più avanti.
Del resto se fossimo tutti uguali e tutti facessimo le stesse cose il mondo sarebbe terribilmente noioso. Come sono noiosi (oltre che pericolosi) i discorsi, i proclami e i ragionamenti di chi ha la pretesa di standardizzarci magari sperando di poterci ridurre a numeri neutri e ripetitivi che soddisfino qualche suo arbitrario schema mentale.
Se alle origini dellautomobile poteva avere un temporaneo significato il primo prodotto fabbricato in serie, la mitica Ford T uguale per tutti e di un solo colore (nero) si scoprì presto che anche le linee di montaggio dovevano essere in grado di produrre modelli diversi. Perché le persone (e le loro esigenze) non sono uguali.
Lindustria dellabbigliamento sa che se producesse per una sola taglia, quella dellimmaginario uomo medio, i capi sarebbero adatti solo a una piccola parte della popolazione (le persone poco sotto o poco sopra la media). Ma in altri campi sono accadute cose bizzarre.
Per esempio è un fatto vero, non una barzelletta, che un grosso progetto edilizio negli Stati Uniti fu impostato con lidea di fare tutte le case per quattro persone, perché allora era quella la famiglia media. Furono costretti a grossi e costosi cambiamenti in corso dopera quando si accorsero di un fatto ovvio: molte famiglie erano più grandi o più piccole dello standard.
Può sembrare solo un episodio di insolita sconsideratezza. Ma si potrebbero citare parecchi altri esempi, anche recenti. Non sono pochi i casi in cui per badare alla media si dimentica la diversità. Sembra comodo pensare che esista un uomo medio o uomo comune. Ma presto o tardi ci si accorge di avere a che fare con linesistente.
Gli inganni delle parole
A peggiorare le cose cè il linguaggio con cui si interpretano o si descrivono i dati. Spesso afflitto da manierismi che ne deformano il significato. Per esempio accade di leggere o sentir dire che tutti fanno o pensano qualcosa. Con un po di attenzione non è difficile scoprire che quei tutti sono pochi o che una certa media, chissà come calcolata o immaginata, non riflette alcuna persona o situazione reale.
Fra i manierismi cè anche luso (e abuso) dellaggettivo esponenziale. A parte il fatto che la parola ha un significato preciso, raramente applicabile a una crescita o a una tendenza, la si usa a casaccio per ogni sorta di vicende il cui andamento non somiglia neppure remotamente a un moto uniformemente accelerato.
Unaltra terminologia superficiale (quando non è intenzionalmente ingannevole) è quella che dice vola quando qualcosa aumenta delluno o due per cento o crolla quando scende di una altrettanto modesta misura.
Un trucchetto largamente usato è il piccolo avverbio ben. È sostanzialmente inutile, perché i numeri, quando hanno un significato, sono chiari da soli. Ma comunque è unenfasi spesso deformante.
Se qualcuno ci dice che un bosco ha ben mille alberi, vuol farci intendere che è un bosco importante e che altri (quali non si sa) ne hanno meno. Se invece dicesse che ne ha solo mille, vorrebbe farci pensare che sia un bosco piccolo (in confronto a cosa?) o che abbia pochi alberi di quella specie. Spesso quelle paroline sono inserite a caso, senza alcuna base che ne giustifichi il significato.
Questi sono solo alcuni di tanti possibili esempi. Fra manierismi e modi di dire, usi banali o deformanti del linguaggio, deduzioni arbitrarie o infondate, il problema non è soltanto nelle statistiche, ma anche nel modo di interpretarle e spiegarle. E quando (come succede spesso) le spiegazioni sbagliate si accumulano con le inesattezze dei dati il risultato è una moltiplicazione di insensatezza.
Vuol dire che siamo irrimediabilmente confusi, in balia del pressapochismo e della disinformazione? Per fortuna no. Vedremo alla fine come è possibile difendersi. Ma intanto, per cominciare, il passo fondamentale è una sana diffidenza. I dati, statistici o non, se usati bene, possono aiutarci a capire. Ma è necessario ricordare che nulla è mai più certo o credibile solo perché è espresso in numeri o accompagnato da dati numerici.
La ripetizione non è una conferma
Possiamo immaginare che se le stesse statistiche, o le stesse osservazioni, sono largamente ripetute in diverse occasioni e da diversi autori, se ne può dedurre che sono credibili e ben fondate. Ma non è vero.
Accade spesso che un dato, una notizia o unopinione, arbitrariamente o incautamente pubblicata da uno, sia ripresa acriticamente da altri e abbia unenorme diffusione senza alcuna verifica sullattendibilità della sua origine. Talvolta una bufala può sopravvivere per millenni (per esempio non cè mai stata alcuna prova attendibile che Nerone avesse incendiato Roma).
Può essere esagerato affermare, parafrasando Proust, che la diffusione di una notizia è inversamente proporzionale alla sua credibilità. Ma è un fatto che molte cose considerate vere non hanno alcun fondamento se non il fatto che sono così diffuse da sembrarlo. E accade con dati e statistiche come con ogni altro genere di informazioni.
Cè unefficace sintesi di questa sindrome in unosservazione di Alessandro Manzoni. «Il buon senso cera, ma se ne stava nascosto, per paura del senso comune».
Il problema non sta tanto nellesistenza degli errori, che sono sempre possibili, quanto nella diffusa abitudine di accettare dati sballati e incoerenti come se fossero certezze indiscutibili e di ripeterli ad infinitum senza mai verificarne la credibilità.
La gatta frettolosa
Unattivissima, imperversante fabbrica di errori è la fretta. Dati e statistiche (come ogni sorta di informazione) richiedono verifiche attente. Accade che lansia di essere veloci, di dare la notizia o di decidere senza approfondire, porti alla diffusione di affermazioni infondate, talvolta grottesche o provochi scelte sbagliate che poi è faticoso correggere.
La stessa fretta induce a copiare, cioè a ripetere ciò che ha detto o fatto qualcun altro, senza avere il tempo o la voglia di controllare. Così gli errori si moltiplicano e continuano a riprodursi per giorni, o mesi, o anni, fino a diventare un patrimonio culturale di assurdità.
Non è vero che gli struzzi mettono la testa sotto la sabbia (se fossero così stupidi, a questora sarebbero estinti). Ma lo fanno troppo spesso gli umani, per fretta, distrazione o superficialità.
Sulla sindrome della fretta vedi il capitolo 16
di Il potere della stupidità.
Sulle cose che crediamo ma non sono vere
vedi La stupidità dei luoghi comuni.
Un libro utile e interessante
Un libro unico nel suo genere è stato pubblicato in America nel 1954. Si chiama How to Lie with Statistics, scritto da Darrell Huff un giornalista, non un matematico. È un brillante esempio di buona divulgazione. Se ne sono vendute, in inglese, oltre mezzo milione di copie. È meritatamente il più diffuso fra tutti i libri che siano mai stati scritti sullargomento.
Per il suo tono ironico e per la scrittura scorrevole, spesso divertente, comunque facile anche per i non iniziati, è stato dapprima disprezzato dal mondo scientifico. Ma poi si è capito che da un punto di vista tecnico è molto preciso e ben documentato. Tanto è vero che è stato celebrato dallInstitute of Mathematical Statistics nel 2005 per il suo cinquantesimo anniversario.
Ne sono uscite traduzioni in varie lingue (compreso il cinese) ma non in italiano fino a quando, nel 2007, è stato finalmente pubblicato Mentire con le statistiche. Cè un sito online htlws.it che, oltre a presentare il libro, contiene anche parecchie altre osservazioni sullargomento.
Ledizione italiana contiene ampie annotazioni, aggiornamenti e approfondimenti che si aggiungono allintrinseco valore (e alla sostanziale attualità) del testo originale. Ce nè una recensione che, oltre a questo libro, ne commenta anche un altro, di diversa impostazione ma di interessante utilità: Quando i numeri ingannano di Gerd Gigerenzer.
Varie osservazioni, utili anche per uno sviluppo un po più ampio dei temi trattati in questo articolo, si trovano in premesse e aggiunte.Si presenta, a prima vista, quasi come se fosse un manuale per gli imbroglioni. Ma è esattamente il contrario. È uno strumento per capire come dati, statistiche e numeri possono essere deformati e così praticare larte necessaria del dubbio e distinguere i dati utili e significativi da quelli che, per intenzione o per errore, ci danno percezioni sbagliate.
Ricordo che un giorno, parecchi anni fa, mandai una copia del libro di Huff, in inglese, a un mio amico professore di fisica. Mi aspettavo una risposta un po sdegnosa, come divertente ma non abbastanza scientifico. Mi sorprese, con piacere, il suo commento. «Dovrebbe essere adottato come testo in tutte le scuole di fisica e matematica». E infatti si trova nelle biblioteche, e in evidenza nelle librerie interne, di alcune fra le più serie università americane.
È un po diverso il percorso delledizione italiana. Mentire con le statistiche è apprezzato dagli studiosi e dagli addetti ai lavori (o almeno dai più seri, coscienti del fatto che non sono infallibili). Ma, almeno finora, è meno conosciuto fra le persone cui è destinato, i normali esseri umani che non hanno voglia di addentrarsi in astruse disquisizioni tecnico-matematiche e possono imparare molto da un testo divertente quanto istruttivo.
Sembra diffusa lopinione che un libro sulle statistiche debba necessariamente essere complicato e difficile. O noioso. Darrell Huff ha brillantemente dimostrato che non è vero.
Il campione rappresentativo
Sono rari i casi in cui è possibile avere tutti i dati su tutte le persone o cose che si sta cercando di misurare. Uno dei pochi esempi è il censimento, che dovrebbe raccogliere informazioni sulla totalità della popolazione (eppure anche in quel caso ci possono essere rilevanti errori o imperfezioni).
Ci sono metodi per cui si possono fare rilevazioni da fonti indirette. Fra tanti, un esempio semplice. Come si fa a stimare quante persone sono rimaste a Milano o a Roma in agosto? Qualcuno riesce a contarle una per una? Ovviamente no. Ma si può avere una ragionevole stima conoscendo la quantità di spazzatura o il consumo di acqua o di energia elettrica per uso domestico.
Un sistema diffuso è il campione. In teoria è semplice. Si scelgono in modo casuale persone in numero sufficiente per avere una significatività statistica precisamente definibile in base a un fattore matematico (che si chiama sigma). Tutto chiaro e tutto preciso? Ahimè no. Perché entrano in gioco parecchi fattori che possono influire sulla qualità dei risultati.
Sarebbe lungo analizzarli tutti. Ma uno, per esempio, sta nel fatto che è difficile (e costoso) usare un campione assolutamente casuale. Si usano perciò campioni rappresentativi, cioè ricostruiti in base a categorie demografiche. Il metodo è concettualmente ragionevole, ma in pratica può introdurre variabili deformanti.
Molto dipende anche dal comportamento degli intervistatori, dalla formulazione delle domande, dalla struttura dei questionari.
Sullo stesso argomento si possono avere risposte molto diverse secondo il modo in cui è impostata una domanda e il momento in cui è collocata. E può influire anche il rapporto fra chi chiede e chi risponde, il luogo e la situazione in cui avviene lincontro, eccetera.
Mi sono trovato in molti casi a dover valutare con attenzione questi fattori per poter capire il vero significato di una ricerca, che spesso non è sufficientemente chiaro se ci si limita a guardare i numeri.
Post hoc o propter hoc
Spero di essere perdonato per luso del latino, ma così il problema è definito in molte lingue diverse (compreso linglese). Naturalmente non si tratta solo di statistiche. Se fra due dati (o fatti o comportamenti) cè un nesso, vuol dire che uno è la causa dellaltro? Si può facilmente sbagliare.
La connessione causa-effetto può essere in senso contrario a quella che sembra la più evidente. O tutti e due possono essere conseguenze di un terzo fattore. Oppure (anche se una totale casualità è rara) si può trattare di una non significativa coincidenza.
Gli esempi potrebbero essere infiniti. Ce nè uno curioso, a modo suo esemplare, citato da Darrell Huff.
Nelle Nuove Ebridi era diffusa la convinzione che i pidocchi facessero bene alla salute. Dove stava lerrore? Nella correlazione causa-effetto. Quasi tutti da quelle parti avevano quasi sempre i pidocchi. Se a qualcuno veniva la febbre il suo corpo diventava troppo caldo per essere unabitazione confortevole. E i pidocchi se ne andavano.
Succede solo in qualche isola del Pacifico? No. Ci sono dovunque errori di quel genere, anche recenti, in analisi apparentemente serie su ogni sorta di argomenti.
Le insidie dei grafici
Può essere molto utile, quando è ben fatto, spiegare dati e statistiche con grafici che danno una percezione immediata di ciò che significano i dati. Ma qui si nasconde unaltra trappola. Ci sono molti modi per deformare il senso dei numeri quando si traducono in immagini. E, anche in questo caso, si può trattare di involontari errori o di intenzionali manipolazioni.
Il problema cè sempre stato, ma si è aggravato con lelettronica. Con vari software è facile trasformare i numeri in istogrammi o altre sintesi visive. Fin che si usano le funzioni più semplici il risultato può essere corretto ed efficace. Ma è forte la tentazione di abbellire con effetti decorativi che, se non sono usati con estrema cura nel rappresentare correttamente ciò che significano, possono deformare la percezione e il significato dei dati.
Nel 2004 avevo scritto un breve articolo intitolato Il morbo di powerpoint in cui, fra laltro, si parla delle insidie dei grafici. Ha fatto il giro del mondo, con poche polemiche e molti consensi.
Le tecniche di presentazione visiva non sono necessariamente diaboliche (come diceva unefficace vignetta di Alex Gregory pubblicata dal New Yorker il 29 settembre 2003). Ma sono spesso usate male, con il risultato di addormentare gli astanti o ingannarli con mirabolanti travestimenti di affermazioni prive di sostanza.
Alla fine dellarticolo su powerpoint
cè anche la vignetta demoniaca del New Yorker.
Il problema dei grafici è più ampiamente descritto,
con vari esempi, nel capitolo 5 di Mentire con le statistiche.
I trucchi sono tanti. Uno dei più semplici è giocare con la scala dei valori. Per trasformare una modesta crescita in un esaltante sviluppo o viceversa. È quello che Darrell Huff chiama the gee-whiz graph il grafico fantasmagorico.
Effetti deformanti sono provocati anche dalluso di disegni invece di istogrammi. Unimmagine si forma nella nostra mente a due dimensioni. Perciò le differenze sembrano al quadrato se una cosa è tre volte più grande (o più piccola) di unaltra, limpressione è che lo sia nove volte. Se è aumentata di un terzo, sembra che sia quasi raddoppiata.
È ancora peggio quando si rappresentano oggetti o persone. Così la percezione è tridimensionale e la deformazione del dato non è al quadrato, è al cubo. (Darrell Huff cita due esempi: una grande mucca, accanto a una piccola, che ingigantisce la crescita della produzione di latte e un minuscolo rinoceronte, confrontato con uno enorme, che esagera la diminuzione della specie in Africa).
Sarebbe lungo descrivere le varie possibilità di deformazione nei grafici o in altre rappresentazioni visive. Spero che pochi esempi bastino a chiarire il problema.
Sondaggi di opinione e ricerche di mercato
Sono utili. Specialmente se (come è sempre stato nella mia esperienza) non sono fatte in base a qualche pregiudizio o al desiderio di dimostrare una tesi, ma con lunico scopo (anzi necessità) di capire il meglio possibile la situazione reale. Il problema è che troppo spesso se ne traggono deduzioni superficiali o sbagliate, perché non si approfondisce abbastanza il reale significato dei dati.
Un esempio fra mille. Nel 2006 uno studio svolto da un serio istituto comprendeva alcune informazioni sulla crescita del numero di denunce di reati. In una classifica per percentuali di aumento, fra le città italiane risultava al primo posto Ferrara (la storia potrebbe essere uguale in qualsiasi altra città).
Si scatenò una sfrenata bagarre, a causa del modo in cui la notizia era diffusa dai giornali. Allarme collettivo, imbarazzo del sindaco e del prefetto, proposte di misure straordinarie... perfino la bizzarra idea di ricontare denunce e accertamenti come se fossero schede elettorali contestate... insomma un enorme fracasso dovuto a una interpretazione frettolosa, scandalistica e sbagliata di dati che non giustificavano in alcun modo tutto quel parapiglia.
Listituto aveva correttamente spiegato che il dato riguardava le denunce, non i reati, perciò si poteva trattare non di un aumento di criminalità, ma di una migliore efficienza delle forze dellordine e di un maggiore impegno dei cittadini nel denunciare. E comunque la significatività statistica non era tale da poter giustificare alcuna classifica delle città. Ma non riuscì a frenare lo sconquasso, che continuò a imperversare fino a quando (come succede quasi sempre) si esaurì fino a cadere nel dimenticatoio.
Un esempio intenzionalmente irreale è un sondaggio che ho inventato su Cesare e Pompeo dove con un metodo apparentemente uguale si ottengono risultati molto diversi. Forse un po esagerato in quella impostazione didattica, ma sostanzialmente simile a cose che sono accadute davvero e che continuano a ripetersi.
Il problema delle proiezioni
Non si tratta di quelle proiezioni che imperversano dopo ogni elezione e costringono politici e opinionisti a fare inutili congetture quando basta aspettare un giorno, o forse due, per avere non solo risultati definitivi, ma anche il tempo di analizzarli in modo non troppo superficiale.
Cè un altro genere di proiezioni, il cui compito è indovinare il futuro. Non sempre sono esercitazioni prive di senso. Può essere utile, in alcune cose necessario, avere una ragionevole stima di quale potrà essere lestensione di unesigenza, lo sviluppo di un problema o la disponibilità di una risorsa, fra sei mesi o fra trentanni. Ma è bizzarro che si pubblichino grafici, tabelle o anche semplicemente notizie che presentano come un fatto acquisito dati riguardanti il 2020 o il 2050.
Nessuno è in grado di fare profezie. È vero che un astronomo può prevedere uneclissi con notevole precisione, ma poche cose hanno una regolarità costante nel tempo come i movimenti dei pianeti e dei loro satelliti.
La soluzione è semplice. Prendere i dati per quello che sono. Se la tale tendenza verificata finora in base a ... continuerà nello stesso modo, è probabile che.... Dove se, in base a e probabile sono parole chiave, troppo spesso dimenticate da chi si sbizzarrisce con le profezie.
Sono molti (e talvolta fallimentari) gli errori provocati da proiezioni basate sul passato senza tener conto dei cambiamenti (spesso prevedibili, o almeno ipotizzabili) che possono interferire con levoluzione di una tendenza. Come dice Scott Adams. «È facile fare profezie. Quando si accorgeranno che le mie sono sbagliate, sarò morto». O Niels Bohr. «La predizione è molto difficile, specialmente sul futuro».
Ma è altrettanto sbagliato essere imprevidenti, cioè non tener conto di problemi (o di potenzialità) che erano chiaramente proiettabili e sono stati ignorati o sottovalutati, per poi dover affrontare le situazioni quando è troppo tardi e la possibilità di rimediare ai danni (o approfittare di occasioni favorevoli) è perduta o è diventata molto più difficile.
(Vedi Il prevedibile e limprevedibile
capitolo 3 di Il potere della stupidità.
E anche Il (dis)senno di poi).Limportante è capire che una proiezione non è una profezia. Se e quando è utile, deve essere gestita, ricontrollata, seguita nel tempo per capire gli sviluppi. Ed è meglio anche verificare se con criteri completamente diversi si trovano tendenze che confermano (o modificano) il significato di unevoluzione.
Il metodo è noto, per esempio, nella navigazione piana, cioè quella con la carta nautica, la bussola e il compasso (che è meglio conoscere anche se esistono i navigatori satellitari e i radar). Per fare il punto con ragionevole approssimazione si usano tre riferimenti diversi. (Anche in tante altre cose è utile triangolare e le prospettive utili possono essere più di tre).
Se no, si rischia di cadere nella situazione descritta da John Kenneth Galbraith. «Lunica funzione della previsione economica è far sembrare rispettabile lastrologia».
Il rimedio? Diffidenza e buon senso
Una percezione diffusa, quanto sbagliata, è che se qualcosa è espresso in numeri è più vero. E sembrano ancora più credibili quando sono molto precisi, anche con i decimali, mentre spesso quei dettagli sono al di sotto della significatività statistica. Quando leggiamo 52,14 per cento, anche se lanalisi è ben fatta su dati validi, è probabile che linterpretazione più corretta e utile sia circa la metà. (Vedi Lutilità dei numeri imprecisi). Già nel Settecento Samuel Johnson diceva: «i numeri precisi sono sempre falsi». E, ventanni fa, Alfred Sauvy: «in ogni statistica, linesattezza dei numeri è compensata dalla precisione dei decimali».
Perciò la prima difesa è non lasciarsi affascinare dallapparente esattezza dei numeri. Ma non basta. Occorre anche capire se dati e statistiche hanno un senso e se il modo in cui sono interpretate è ragionevole.
Solo nel caso che largomento ci interessi in modo particolare possiamo trovare il tempo e la pazienza di controllare, verificare altre fonti, risalire allorigine dei dati. Ma in generale può essere utile la soluzione che propone Darrell Huff: dare una seconda occhiata. Numeri e deduzioni sembrano ragionevoli? Come coincidono o divergono da altre cose che sappiamo sullargomento?
Serve anche (e spesso è possibile) guardare dietro la superficie. Diceva Aaron Levenstein: «le statistiche sono come i bikini ciò che rivelano è suggestivo, ma ciò che nascondono è più importante».
È meno difficile di come può sembrare. Con un po di esercizio si impara non solo ad avere una sana diffidenza, ma anche a sapere come orientarla. Si tratta di qualcosa che conferma ciò che sappiamo o che potevamo immaginare? O di uninteressante scoperta che può farci cambiare idea? Se teniamo gli occhi aperti, presto o tardi avremo un modo per saperlo.
Soprattutto è utile il buon senso. Che cosa sappiamo, su quellargomento, dalla nostra esperienza? O dallopinione di qualcuno che se ne intende e di cui ci fidiamo? Non sono poche le possibilità di verifica.
Il concetto era stato efficacemente riassunto da Mark Twain. «Le statistiche sono come un lampione. Le possiamo usare per fare luce, ma non come lubriaco, che ci si appoggia».
Insomma dalle statistiche si può imparare. Ma ce ne sono troppe sbagliate, ingannevoli o male interpretate. Per evitare di essere confusi o imbrogliati non occorre avere una laurea in matematica o conoscere in profondità i complessi fattori della significatività statistica. Basta sapere che prima di fidarci dei numeri è meglio capire se hanno un senso e, se ce lhanno, quale può essere un credibile significato.