Ci sono due domande off limits, che non bisogna porre agli studiosi di Internet. Chi controlla il web? Quante informazioni sono contenute nella Rete? Comunque, alla prima, la comunità scientifica risponde in coro: «Nessuno»

Sandro Torelli, Corriere della Sera 13/2/2007, 13 febbraio 2007

Ci sono due domande off limits, che non bisogna porre agli studiosi di Internet. Chi controlla il web? Quante informazioni sono contenute nella Rete? Comunque, alla prima, la comunità scientifica risponde in coro: «Nessuno»

Ci sono due domande off limits, che non bisogna porre agli studiosi di Internet. Chi controlla il web? Quante informazioni sono contenute nella Rete? Comunque, alla prima, la comunità scientifica risponde in coro: «Nessuno». Invece per la seconda non esistono dati univoci. Precisi. Perché Internet è una gigantesca struttura dinamica in continua evoluzione. Spiega Alex Vespignani, uno dei «cervelli» italiani in fuga dal nostro paese negli anni ’90, ora professore di informatica al dipartimento di Fisica dell’Indiana University: «Nel 2005 abbiamo provato a calcolare tutti i documenti (pagine multimediali, ndr) presenti sul web in formato digitale, ebbene è risultato un numero superiore a 12 miliardi. Ora a distanza di due anni e con l’avvento dei filmati di siti come YouTube, di portali di fotografie e musica, presumiamo che il numero sia già triplicato». IL VALORE – Dunque un valore prossimo a 40 miliardi di documenti online. «Ma nessun ricercatore serio – aggiunge Vespignani – lo riuscirà più a calcolare con precisione». Semplicemente perché nei pochi secondi in cui leggete queste parole, saranno nati centinaia di nuovi siti, al cui interno sono racchiuse migliaia di pagine multimediali. Attenzione però. Sempre in questo istante altrettante informazioni andranno perse. Perché non saranno più raggiungibili con i tradizionali metodi messi a disposizione, principalmente, dai motori di ricerca. Ecco allora emergere l’altra faccia di Internet. Quella oscura. Perché nel corso di vent’anni sono andate perse metà delle informazioni, memorizzate negli oltre 100 milioni di siti registrati. DUPLICATI – Secondo Ricardo Baeza Yates, responsabile europeo di Yahoo Research, «stimiamo che il 50 per cento delle informazioni siano smarrite nella Rete, per ora non raggiungibili». Perse dove? «Giacciono dimenticate in vecchi server, sepolte nei meandri di zone memoria i cui indirizzi, i cosiddetti Url (Uniform resource locator), sono cambiati, non più identificabili». E poi bisogna tenere conto della «spazzatura digitale» che produciamo quotidianamente. «Almeno il 20 per cento dei contenuti proviene da spamming» prosegue Baeza Yates. L’odioso fenomeno che introduce milioni di byte inutili nelle nostre caselle di posta elettronica, con la pubblicità indesiderata. «E poi un altro 20 per cento di informazioni lo produciamo noi stessi con duplicati digitali. Documenti che riceviamo e rispediamo in rete, clonandoli più volte», conclude il dirigente di Yahoo Research. IL PROBLEMA – Ma allora come entrare in quella metà del web che rimane nascosta, non visibile ai motori di ricerca tradizionali? Il problema era già emerso una decina di anni fa. Ma solo con il nuovo millennio un gruppo di ricercatori dell’ Internet Archive di San Francisco, assieme all’American Library Association, ha allestito www.archive.org. Un’immensa biblioteca digitale dove i ricercatori hanno raccolto le informazioni dei siti in «via di estinzione». Operando come frati certosini hanno salvato documenti, filmati e fotogrammi prima che venissero oscurati. Tra i servizi gratuiti messi a disposizione anche Way Back Machine. Una «macchina del tempo» telematica che va a ritroso negli anni ed estrae i contenuti dai vecchi siti. Ricordando però che nell’era Internet, l’archeologia informatica parte dagli anni ’90. Dunque, questo è quanto nel pianeta stiamo facendo per fare venire alla luce il passato del web. Ma per il futuro? Ebbene esiste un sistema capace di tenere traccia delle informazioni messe su Internet adesso. Per renderle disponibili ai nostri figli. La soluzione arriva da una nuova tecnica di indicizzazione chiamata Purl (Persistent uniform resource rilocator). Messa a punto dall’organizzazione americana Purl.Oclc.org. ETICHETTA – Spiega il milanese Gianroberto Casaleggio, esperto in strategie di Rete: «In pratica il precedente sistema di assegnazione degli indirizzi con Url fissa, viene sostituito con una procedura che ne tiene traccia permanente. E anche in caso di cambiamenti o smarrimenti dell’indirizzo, sarà possibile ritrovare le informazioni originali». Semplificando possiamo dire che ogni contenuto messo nei siti viene accompagnato da un’etichetta numerica, in grado di identificarla in modo univoco. Fino a oggi 1,5 milioni di indirizzi web sono stati salvati con la procedura Purl. Così, in futuro, per gli archeologi informatici sarà un gioco ritrovare le «informazioni perdute» nelle Babele del web. Umberto Torelli La Rete nel mondo: rappresentazione dello studioso Usa Stephen Eick

SANDRO TORELLI