Il Sole 24 Ore, 30 maggio 2020
Mentire con le statistiche
Il libro di D. Duff (1954) “Mentire con le statistiche” mostra come si commettono errori quando si analizzano dati imprecisi, serie storiche disomogenee, o correlazioni senza un nesso causa-effetto, ma insegna anche a selezionare dati e correlazioni in modo da dimostrare una tesi predefinita, non importa se errata.
Una lettura utile per capire qualcosa nel diluvio di dati, analisi e pseudo informazioni che viene propinato quotidianamente sulla pandemia.
I principali dati forniti sono il numero dei contagiati, degenti (in ospedale ed in terapia intensiva) e morti; non sono numeri che servono per interpretare bene la realtà, perché si tratta di stime basate su campioni scelti in modo poco trasparente o casuale, perdipiù affette da margini di errore non quantificati. Prendiamo per esempio il numero dei contagiati; sì, ma come si misura, quando e in quale territorio?
Continua a pagina 21
Gianfilippo Cuneo
Continua da pagina 1
Il numero contagiati rapportati agli abitanti in un territorio composto da ampie distese poco abitate e da poche metropoli affollate (come è la Svezia) non può esser comparato con l’indice di un territorio con caratteristiche inverse; l’esclusione delle aree meno popolate, dove oggettivamente la possibilità di contagio è inferiore, porterebbe ad un indice maggiore. E poi, quanti sono i contagiati? Solo quelli che sono diagnosticati in ospedale, o anche quelli che hanno manifestato sintomi e non sono stati ospitalizzati, o anche quelli asintomatici che possono esser rilevati solo a campione con tamponi o altre analisi? Certo che se ci si limita al dato più “certificabile”, e cioè quello degli ospitalizzati, si sotto-stima il fenomeno; idem se diminuisce il numero dei tamponi fatti recentemente e ci si limita a contare i contagiati all’interno del campione.
Un altro problema particolare è il tempo (alcune settimane) che intercorre fra quando probabilmente una persona ha preso il virus e quando la si può contare nelle statistiche dei contagiati (almeno 2 settimane) che però in termini di contagi potenziali futuri non vuole dire niente se la persona è in isolamento; confrontare due territori in cui la pandemia e l’isolamento sono iniziati in momenti diversi non ha quindi molto senso se non per fare qualche ipotesi sull’evoluzione futura nel territorio “ritardatario”.
Anche la scelta della popolazione di riferimento confonde le idee perché dipende da ragionamenti burocratici (il comune, la provincia, la regione) e non di omogeneità sociodemografica.
Molto spesso quando si critica la rilevanza dei dati utilizzati ci si sente rispondere: “ma questi sono i dati disponibili”. È una risposta simile a quella di un tizio che di notte sotto un lampione cercava le chiavi perse; ad un passante che si informava su dove le avesse perse rispose: “laggiù”; “e perché le cerca qui?” chiese il passante; risposta: “perché qui c’è la luce”.
Altri errori frequenti: dati disomogenei comunicati da fonti diverse, aggregati burocraticamente e poi smentiti perché non inclusivi di dati arrivati in ritardo; o confronti fra eventi che però derivano da contagi di molte settimane prima (per es. i morti) con i ricoverati in ospedale odierni.
L’analisi dei dati, anche se fatta male, è normalmente una curiosità; quando viene utilizzata per fare previsioni e prendere decisioni diventa invece una cosa seria. L’estrapolazione delle tendenze non serve molto: se un indice di contagio è in calo perché la popolazione è stata in stretto isolamento, non ha senso ipotizzare che il calo continui quando l’isolamento finisce.
Ma nemmeno si può ipotizzare che si torni alla situazione di partenza perché nel frattempo sono cambiati sia comportamenti, in particolare della parte della popolazione più a rischio, sia le tempistiche di intervento sanitario.
Inoltre, sta cambiando la gravità, in termini di ricoveri e di morti, per fasce d’età e per luogo di contagio; le previsioni di diffusione del virus logicamente dovrebbero evidenziare anche l’attesa gravità degli effetti tenendo conto dei comportamenti protettivi futuri di ciascuna categoria a rischio e della maggiore reattività sanitaria.
Ma occorre partire da dati seri raggruppati in funzione delle analisi da fare.
Fare previsioni comporta necessariamente l’adozione di modelli che, per descrivere una realtà complessa ed in evoluzione, devono avere molte variabili e parametri, partire da serie storiche di dati attendibili con relazioni causa-effetto verificate, e contemplare una evoluzione dinamica della situazione. Però di fronte a fenomeni nuovi le formule matematiche non sono dimostrate e i fatti sfumano nelle opinioni; infatti piccole variazioni nei parametri utilizzati portano a forti variazioni dei risultati del modello, dimostrandone quindi la scarsa utilità.
Il libro di Duff insegna anche come costruire un modello per ottenere i risultati voluti a priori, il tutto con un’analisi matematica tanto elegante quanto errata. Magari non è vero che le analisi sono manipolate in funzione delle pressioni da parte di categorie socioeconomiche interessate alla “apertura”; l’imprecisione però legittima i sospetti.
Alla fine è inevitabile che chi ha una responsabilità politica per la gestione della pandemia e per minimizzarne i danni debba prendere delle decisioni; sarebbe doveroso però spiegare bene quali dati sono sati giudicati attendibili e rilevanti, quali modelli previsionali sono stati utilizzati, e dichiarare a priori quali indici o numeri obiettivo si ritiene di raggiungere (per es. percentuali future “accettabili” di morti per categoria di rischio).
Nel frattempo sarebbe saggio evitare di presentare come “certi” dati che sono solo stime, di fare medie di pere con mele, e di estrapolare dei trend basati sul nulla.