Il pc che parla, legge, ascolta e capisce. Con il deep learning, Google e Skype hanno messo a punto software che hanno la capacità di comprendere un discorso e di riconoscere una foto perché per ora «il mondo digitale è troppo piccolo e i computer sono troppo stupidi»

la Repubblica, 1 giugno 2015

Il pc che parla, legge, ascolta e capisce. Con il deep learning, Google e Skype hanno messo a punto software che hanno la capacità di comprendere un discorso e di riconoscere una foto perché per ora «il mondo digitale è troppo piccolo e i computer sono troppo stupidi»

Una piccola rana verde mimetizzata su una foglia, una nera grassoccia che appena affiora dall’acqua, un’altra bruna piatta nascosta nel sottobosco. Strano a dirsi, ma la grande rivoluzione in atto nel mondo della tecnologia passa per le foto di tre anfibi. Riconoscerle come simili è un’operazione da bambini per noi, per le macchine invece è una conquista dalle implicazioni profonde. Il frutto dei deep neural networks, reti di processori grafici organizzate come quelle neurali, che hanno la capacità di capire il senso di quel che guardano, ascoltano, leggono. Insomma, un’altra musica rispetto al semplice riconoscimento di un volto. «È un apprendimento che avviene per strati anche se in un batter d’occhio», spiega Sundar Pichai, vice presidente di Google che ha aperto ieri a San Francisco il ciclo di conferenze annuali Google I/O. «Nel primo le macchine distinguono in un’immagine i contorni, le ombre, le forme. Nel secondo arti, bocca o il profilo di una collina sullo sfondo. Nel terzo arrivano a dare un nome alle cose». Rana, appunto. O montagne, spiaggia, tramonto. Basta scaricare Google Foto, da venerdì sugli app store, per averne una assaggio. Sono i primi passi concreti di una scienza chiamata deep learning, apprendimento profondo, che non riguarda solo le immagini o i video. Partendo dalla distinzione fra fonemi, sta cambiando anche il riconoscimento vocale che in certi casi è passato da un tasso di errore del 23% nel 2013 all’8% di oggi.
«Il mondo digitale è troppo piccolo e i computer sono troppo stupidi», racconta dalla California un altro ingegnere indiano, Sumit Gupta, specializzato in deep learning e che ha lavorato per dieci anni per il produttore di processori grafici Nvidia prima di passare a maggio alla Ibm. «I motori di ricerca, iniziando da Google, arrivano a sondare appena il 4% delle informazioni nel web e nella stragrande maggioranza non capiscono la natura, quindi non sanno fornire risposte adeguate a domande complesse che vadano oltre una sequenza di parole chiave e metadati come giorno e luogo di pubblicazione. Gli assistenti virtuali alla Siri di Apple o Cortana di Microsoft comprendono una cosa su due e lo stesso capita con Echo di Amazon che, lanciato a gennaio, doveva esser capace di fornire le previsioni del tempo o avviare la nostra playlist preferita». La maggior parte delle traduzioni istantanee, tanto per citare un caso, sono imprecise. I sistemi basati sulle ricorrenze statistiche nelle varie lingue da soli non bastano. Provate con un testo giapponese o anche con uno in inglese con espressioni idiomatiche e frasi articolate e vedrete che il risultato è tutt’altro che soddisfacente. I videogame? Dissimulano. Le strade di Novigrad in The Witcher 3, lo straordinario affresco fantasy creato a Varsavia, sembrano vivere di vita propria, eppure basta rivolgere la parola ad un passante una volta di troppo per avere sempre la stessa risposta. E così quello che sembrava un paesaggio sconfinato e un universo digitale pieno di possibilità, si trasforma in una bella strada dai margini occultati. Basta deviare dal percorso prestabilito, parlare per due volte consecutive a un passante, per toccarne i limiti.
Il deep learning promette ben altro, vuol spingersi fino alla comprensione del discorso. Perché sia possibile esser capiti al volo dal proprio smartphone anche se la domanda è apparentemente vaga, come accadrà con Now on Tap su Android M, prossima versione del sistema operativo di Mountain View. E come accade già oggi con Skype Translator, frutto di dieci anni di ricerca sul deep learning da parte della Microsoft. O ancora, perché si arrivi a veicoli dotati di guida automatica in grado di reagire alle infinite variabili del traffico cittadino, cosa ora impossibile. Intendiamoci: Samantha, l’intelligenza artificiale del film Lei di Spike Jonze, o l’Ava di Ex Machina di Alex Garland, che da noi esce a luglio, sono lontane. Ma almeno non sono più dei miraggi.

JAIME D’ALESSANDRO