Elizabeth Pisani, la Repubblica 12/1/2011, 12 gennaio 2011
IL METODO SCIENTIFICO AI TEMPI DI INTERNET
Sto prendendo parte alla conferenza "Science Online", dalla quale è completamente assente il consueto lessico scientifico che mi è familiare, fatto di calcoli a campione, di sperimentazioni con gruppi di controllo e placebo, di test statisticamente significativi. Qui si parla invece di scremare ed estrapolare dati, di terabyte, di petabyte (unità di misura dell´informazione o della quantità di dati, ndr), e di algoritmi. Questo è il linguaggio di Big Data, quell´oceano di informazioni generate da telescopi sempre più grandi, da tecniche di sequenziamento genico ogni giorno più economiche, da un numero in costante aumento di utenti di Facebook. Come ha scritto Martin Rees, presidente della Royal Society, Big Data ci permetterà di scavare sempre più a fondo, di estrapolare sempre più dati, di farci strada verso scoperte e intuizioni finora inimmaginabili. Ci consentirà di porci nuove domande, quelle che non avremmo potuto neppure formulare quando la scienza dipendeva dal lavoro di poche persone, chiuse in un unico laboratorio, impegnate in una ricerca in un ambito delimitato e circoscritto. Alcuni credono che Big Data cambierà addirittura il modo col quale ci rivolgiamo le domande. Ormai i giorni della scienza che conoscevamo, quella che si imperniava su ipotesi e supposizioni, sono definitivamente alle spalle.
David McCandless - scrittore, designer, curatore del blog Information is Beautiful - mostra al pubblico della conferenza un grafico che evidenzia i mesi da gennaio a dicembre. Il tracciato per i primi mesi dell´anno procede su e giù ma in autunno scende vistosamente, per poi sfiorare un altro forte picco verso il basso proprio prima di Natale. McCandless sfida il pubblico a indovinare a che cosa si riferisca il grafico. Le vendite di cioccolato? Quelle dei biglietti d´auguri? Indica allora una didascalia nella diapositiva: "Periodi di picco massimo nella rottura delle relazioni". Le relazioni affettive si guastano e si rompono a causa dello stress imputabile al fatto di trascorrere insieme le feste, spiega McCandless, e a causa delle tensioni che nascono dal doversi ritrovare in famiglia. I dati che presenta sono stati raccolti scremando oltre 10mila aggiornamenti casuali su Facebook relativi alle caselle: "situazione complicata" o "situazione conclusa".
Quando nel 2008 Wired Magazine dichiarò che l´epoca dei petabyte avrebbe spazzato via ogni metodo scientifico, la pagina dei commenti si riempì di smentite indignate e infervorate. La questione da allora è rimasta a covare sotto la cenere. Perché la vecchia guardia si sente così intimorita all´idea di una scienza che parta da algoritmi? Gli epidemiologi come me raccolgono le informazioni sullo scoppio di epidemie, sui comportamenti a rischio e sull´ambiente, e le utilizzano per individuare quali siano le minacce per la salute pubblica. È legittimo preoccuparsi che i computer diano vita ad abbinamenti travisati e ci spingano verso una strada sbagliata. Io temo, però, che in realtà la nostra vera paura sia che Google finisca col fare il nostro mestiere meglio di noi.
Ma prima di chiamare le prefiche affinché vengano a piangere al capezzale della scienza basata su ipotesi, potremmo darle un´occhiata più ravvicinata e cercare di conoscerla meglio. A prima vista, la storia della ricerca quantitativa (e l´enorme corpus della ricerca qualitativa) indica che molte grandi scoperte ebbero origini insolite. Ne parlo a Simon Schaffer, professore di storia della scienza a Cambridge, che intuisce la mia angoscia esistenziale e mi dice: «Le tue domande tradiscono una certa nostalgia nei confronti dell´ideale sperimentale, quello per il quale gruppetti molto ristretti di uomini molto brillanti elaborano previsioni molto illuminanti. Poi, giacché hanno letto Karl Popper, mandano uomini più giovani e più poveri di loro in giro a raccogliere dati, col fine di cercare di mettere alla prova e confutare le loro stesse supposizioni. Il che non avviene assolutamente mai».
Non posso certo confessare che Conoscenza oggettiva, un punto di vista evoluzionistico di Karl Popper - il filosofo austro-britannico della scienza - goda di un posto di riguardo sul mio comodino. Anche se ho faticato davvero molto a cercare di capire per quale motivo il suo modello di Idea-Sperimentazione-Analisi-Confutazione/Conferma-Nuova Idea sia diventato un riferimento imprescindibile della ricerca scientifica.
«Se un´affermazione è scientifica, deve essere verificabile. Questa è la sintesi delle tesi normative di Karl Popper ed è molto convincente, quantunque trascuri completamente di descrivere che cosa fecero in realtà personalità come Darwin, Pasteur, Newton o Boyle. Loro si impegnarono e si dettero da fare personalmente, sporcandosi le mani e procedendo a valutazioni dirette» dice Schaffer. Dominic Kwiatkowski, genetista che insegna a Oxford e studia le correlazioni tra i geni e le malattie, concorda sul fatto che il modello di Popper non riflette la realtà: «Un´ipotesi non nasce dalle elucubrazioni di un individuo sprofondato in una poltrona di pelle con in mano un bicchiere di whisky. Scaturisce dai dati esistenti». Pertanto, quella che in una fase sperimentale iniziale può sembrare un´informazione priva di ipotesi, può rivelarsi per un altro esperimento più circoscritto qualcosa di formulabile in un´ipotesi. Le galline e le uova, insomma.
«Gli scienziati sono troppo imbarazzati se devono ammettere che spesso brancolano tra le informazioni e talvolta incappano in una scoperta per puro caso», dice Chris Hilton, capo archivista alla Wellcome Library, specializzata in storia della scienza. Nel campo delle scienze biomediche, nelle quali ci inginocchiamo all´altare della sperimentazione casuale con gruppo di controllo, la supremazia dell´ipotesi è scritta direttamente nei nostri codici comportamentali. È proibito non averne. «Ma senza ipotesi non vuol dire senza rigore: significa soltanto che non si deve iniziare a trarre le proprie conclusioni ancora prima di iniziare», dice Kwiatkowski.
D´altra parte Big Data non può mettere a rischio la scienza basata sulle ipotesi se questa non è mai esistita veramente. Perché, allora, contorcersi le mani e preoccuparsi per il profluvio di informazioni? Beh, a quanto pare anche contorcersi le mani è un atteggiamento vecchio come il cucco. La scienza è sempre stata in evoluzione, e pertanto ogni scienziato si ritrova a cavalcioni sulla cresta dell´onda delle informazioni, da dove tiene d´occhio lo tsunami che sta per abbattersi su di lui, e si domanda se esso spazzerà via il suo mondo. La sua prima reazione è quella di mettere in ridicolo la nuova immensa ondata di informazioni, liquidandola come caotica, ingestibile, qualcosa che è impossibile contestualizzare e che pertanto riteniamo subito essere intrinsecamente antiscientifica.
L´epoca del petabyte ha costretto i finanziatori a rivedere le loro modalità di investimento nella scienza. «Big Data non è nulla di nuovo. Ma questo rinnovato interesse potrebbe aiutarci a riorganizzare l´immagine di quello che fanno gli scienziati» dice Schaffer. Il Welcome Trust, una delle più grandi associazioni umanitarie al mondo che finanzia la ricerca nel settore sanitario, di recente ha reso noto un nuovo modello di finanziamento, che non impone a chi lo riceve di pianificare uno studio intorno a un´ipotesi specifica. La ricerca speculativa ha appena portato un premio Nobel per la fisica a due scienziati dell´Università di Manchester, che hanno utilizzato un po´ di nastro adesivo per tirar fuori uno strato del superconduttore grafene dalla grafite che si trova nelle matite. Ciò, a sua volta, ha portato Martin Reed, presidente della Royal Society, il cui mandato quinquennale scade a dicembre, a esercitare pressioni per ottenere altri finanziamenti per progetti "aperti" di ricerca.
Un grande vantaggio della ricerca con Big Data è che gli algoritmi, le estrapolazioni, le scremature e la fusione dei dati possono essere effettuati di norma a basso costo.
Una delle cose utili che potrebbero trovare coloro che estrapolano dati sono ipotesi che altri verificheranno in modo più deduttivo. Ciò non può che avere implicazioni precise ai fini delle modalità con le quali riconosciamo o premiamo l´attività degli scienziati. Roni Zeiger di Google afferma: «Se tramite un´analisi di dati inediti qualcuno concepisce un centinaio di ipotesi, e dieci di queste si rivelano in seguito avallate dal lavoro di altri scienziati, di sicuro allora dovrebbero essere riconosciute e premiate. Credo debba esserci un´evoluzione nelle modalità di assegnazione dei premi in funzione dell´impatto che hanno le singole persone».
Ci servono modalità nuove per separare il grano dal loglio, e premiare la scienza speculativa e collaborativa. Finché le cose non si stabilizzeranno, vedremo molto, moltissimo loglio. «È del tutto logico che vi siano scoperte da fare allorché si mette insieme una grande quantità di dati, ma queste scoperte saranno l´esito di un processo molto rigoroso» dice Kwiatkowski. E fa notare che un simile rigore, tuttavia, non è ancora così diffuso: «Al suo inizio, ogni nuova rivoluzione genera una gran quantità di cose inutili e superflue. Alla fine degli anni Novanta la gente affermava che Internet non sarebbe servita a niente, forse solo a vendere cosmetici. Oggi abbiamo Google. Essere liberi da un´ipotesi non significa essere liberi da un modello: un modello serve sempre, come pure serve sempre l´interpretazione, anche quando non si ha un´ipotesi».
© 2010 Prospect Magazine
Distributed by The New York Times Syndicate
Traduzione di Anna Bissanti