Il riconoscimento facciale fa passi in avanti. E dall’espressione si scopre l’intenzione

la Repubblica, 10 ottobre 2018

Il riconoscimento facciale fa passi in avanti. E dall’espressione si scopre l’intenzione

Lo ha visto il matrimonio reale fra il principe Harry e Meghan Markle su Sky?». Barry O’Sullivan, lo chiede mentre beve un caffè durante una pausa del Data Summit, festival del digitale di Dublino. «Gli invitati venivano identificati in tempo reale dalle intelligenze artificiali (Ai) e il loro nome compariva in automatico mentre entravano in scena», prosegue il direttore dell’Insight centre for data analytics all’Università di Cork e presidente della European Artificial intelligence association ( EurAi). «Sullo smartphone o sul tablet si poteva cliccare sul testo per accedere alle pagine personali o alle voci di Wikipedia che li riguardano. E questo è solo un assaggio di quel che si può fare con il riconoscimento facciale».

I passi avanti fatti in questo settore sono noti, fin da quando è diventato possibile sbloccare il proprio smartphone mettendogli davanti il volto. All’epoca, parliamo del 2011, la dimostrazione del nuovo modello della serie Nexus prodotto da Google e Samsung, non andò bene. La tecnologia era acerba. Oggi la musica è diversa anche se per lo più non riguarda i nostri telefoni (che continuano a incespicare). «Non solo l’identificazione dei tratti somatici, possiamo anche stabilire l’età, la razza, lo stato d’animo», sottolinea il professor O’Sullivan. «Informazioni che tornano parecchio utili in ambito commerciale».

Lo aveva intuito nel 2010 una compagnia italiana, la Kee Square nata in seno al Politecnico di Milano, che aveva sviluppato dei manichini con telecamere al posto degli occhi per interpretare l’espressione di un passante davanti a una vetrina e capire come reagiva osservando un certo capo di abbigliamento.

Troppo all’avanguardia, l’azienda ha chiuso. Le cose sarebbero andate in altro modo se avesse cominciato ora. Merito della grande quantità di immagini di persone disponibili sui social per addestrare l’Ai a riconoscere i volti, alla qualità stessa degli algoritmi che è cresciuta e alla potenza di calcolo dei computer. Una volta addestrate, le reti neurali analizzano le foto o i video specializzandosi nei vari passaggi: la prima individua i confini tra forme e figure, la seconda le riconosce e le nomina, la terza confronta i volti, la quarta l’espressione, la quinta lo scenario e così via fino ad avere una scansione completa. Chiunque può esser identificato attraverso foto in buona risoluzione. L’accuratezza delle Ai in questi casi è superiore a quella umana, stando ai risultati ottenuti dal sistema DeepFace di Facebook fin dal 2014.

Uno dei campi più promettenti sono i nuovi motori di ricerca: nell’universo dei video online, ragionano non più attraverso le parole chiave ma per immagini. E questo significa poter rintracciare, ad esempio, tutte le scene dove un certo attore fa una certa cosa, piange o ride, o si trova in un certo luogo. Ma c’è anche la medicina. Il riconoscimento facciale (in teoria) potrà infatti rilevare sintomi di malattie, anche genetiche, divenendo strumento per la prevenzione.

Se comincia a esser semplice leggere le espressioni base, dunque i sentimenti, anche capire le intenzioni diventa possibile. Quelle di un acquisto o di un atto violento. Del resto l’utilizzo più diffuso di questi software è nel campo della sicurezza. È qui che si sono fatti i progressi maggiori, qui si trovano le zone d’ombra. «Finché non ci saranno regole certe anche fuori dall’Europa, ci rifiutiamo di vendere a certi governi tecnologie come il riconoscimento facciale», mette le mani avanti Julie Brill, vice presidente della Microsoft a capo dell’ufficio legale e normativo, la stessa che sotto l’amministrazione Obama guidava la Federal Trade Commission. Lo aveva detto pubblicamente qualche ora prima sul palco del Data Summit, lo ripete durante il nostro incontro nella sala più celebre del Shelbourne Hotel, dove nel 1937 venne stilata la costituzione irlandese. «La visione artificiale delle macchine è diventata molto efficace», continua. «E dobbiamo chiederci cosa succede se la si usa in assenza di garanzie. Perché è certo che gli algoritmi possono essere sfruttati per migliorare la nostra vita come per discriminare e perseguire». Plaude alla General Data Protection Regulation (Gdpr) entrata in vigore in Europa, che vieta l’uso di tecnologie per identificare i cittadini. Con delle eccezioni, cominciando da quel che riguarda la sicurezza nazionale. E ci sono comunque modi per usare il riconoscimento facciale senza violare il Gdpr, limitandosi a raccogliere dati non sull’identità ma sul comportamento.

Intanto posti di blocco e fermi in certe città sono un ricordo lontano. Le strade vengono controllate da remoto in maniera meno invasiva e con un margine di errore più basso. Nel mondo ci sono 626 milioni di videocamere per la sicurezza, e fino a ieri il problema sta nel fatto che molte non hanno una risoluzione sufficiente. «Usiamo gli algoritmi per estrarre dati da qualsiasi tipo di immagine anche se di pessima qualità», spiega Eylon Etshtein a capo della AnyVision nata in Israele nel 2015 e ora con uffici sparsi per il mondo fra Singapore, Messico, Stati Uniti. Appena finanziata dal colosso tedesco Bosch con 28 milioni di dollari, sostiene di poter sfruttare perfino camere ad infrarossi per riconoscere un volto. «Facile essere infallibili con foto in alta definizione. Nella realtà condizioni del genere non si hanno quasi mai».

Nati nei laboratori di ricerca delle università, le versioni base di questi software solo largamente disponibili e tutti i grandi colossi del web offrono la propria versione evoluta. Quella di Amazon, Rekognition, si può perfino provare gratuitamente per un anno. Risultato: sorveglianza a prezzi di saldo. La polizia di Orlando negli Stati Uniti ha speso 30,99 dollari per analizzare 30,989 immagini. Quella italiana ha il Sistema automatico di riconoscimento immagini (Sari) che ha sollevato qualche perplessità per il database che usa e per la scarsa precisione con le persone di colore che porterebbe ad identificazioni errate. È capitato anche a Google con FaceNet, usato fra l’altro nell’app GoogleFoto.

Il nodo da sciogliere, oltre al chi controlla i controllori, sta nel fatto che per ogni utilizzo positivo ne esiste uno o più pericolosi. Basti pensare alla moda del "deepfake", matrimonio fra apprendimento delle macchine (deep learning) e bufale (fake news). Si può animare in un video il volto di una persona facendogli dire qualsiasi cosa falsificando voce ed espressioni. Distinguere fra vero e artefatto per lo spettatore è impossibile. E si può applicare la faccia di chiunque sul corpo di qualcun altro adattandola ad ogni scena e facendole mimare le espressioni dell’originale o altre del tutto posticce. Le prime vittime? Attori e politici. È il nuovo livello della manipolazione delle informazioni. Fra progresso e distopia il passo è sempre breve.

JAIME D’ALESSANDRO