corriere.it, 19 marzo 2026
Gli intollerabili errori dell’intelligenza artificiale
«Grok, è vero?» Questa è la domanda in cui spesso ci si imbatte su X quando si scorrono i numerosissimi post sulla guerra in Iran o sulle altre tragedie che ci tengono incollati agli schermi per «monitorare» la situazione di crisi. Nell’era delle intelligenze artificiali generative, sotto i riflettori c’è il rischio della creazione (sempre più semplificata) e la distribuzione (sempre più capillare) di immagini e video falsi. Un problema emerso con prepotenza durante la guerra in Iran, quando le plausibili (ma false) immagini di bombardamenti sul Burj Khalifa di Dubai e quelle che rappresentano file di cadaveri ammantati di bianco hanno ottenuto milioni di visualizzazioni.
Ecco spiegato il motivo per cui gli utenti si muovono cauti sui social, sempre pronti a verificare ogni immagine che spunta sul feed. E se da un lato esistono i professionisti del fact checking – che, come ha spiegato Shayan Sardarizadeh, giornalista di Bbc Verify, «non sono mai stati così impegnati» – dall’altro gli utenti “comuni” rimangono con pochi mezzi per controllare da soli la veridicità delle foto online. Se non usando gli stessi strumenti che stanno contribuendo alla creazione di bufale. Cioè, appunto, i chatbot di intelligenza artificiale.
È il caso della foto delle decine e decine di buche scavate a Minab, in Iran, per accogliere i corpi delle bambine uccise in un raid (di matrice americana). Uno scatto dall’alto che, senza mostrare direttamente nessun corpo, comunque punta dritto all’emotività di chi lo guarda. Legittimo pensare che si tratti di un falso durante questa “guerra informativa”. Ma in questo caso si tratta di una fotografia reale. Che però, secondo un’analisi del Guardian, è stata scambiata per una bufala da due diversi chatbot. Da un lato Gemini, che l’ha scambiata per una sepoltura di massa in Turchia, scavata a seguito del devastante terremoto del 2023. Grok, invece, riconduce lo scatto a una sepoltura di massa del 2021 a Jakarta, in Indonesia.
Vere e proprie allucinazioni, con tanto di fonti che – come riporta la testata britannica – rimandano ad articoli che non contengono l’immagine in oggetto o che non esistono proprio. Non è la prima volta (né l’ultima) che le intelligenze artificiali rispondono sbagliando (per esempio quando ha dato risposte sbagliate agli utenti che chiedevano di identificare il giornalista pedofilo arrestato in Italia).
La domanda rimane: l’intelligenza artificiale generativa è utile per identificare se una foto è vera o falsa?
Per rispondere a questa domanda, abbiamo provato a interrogare quattro fra i chatbot più popolari – ChatGpt, Claude, Gemini e Grok – per capire se sono capaci di distinguere fra foto false e quelle invece reali. Partendo proprio dal caso delle sepolture di Minab. Se Gemini e Claude hanno passato “l’esame” a pieni voti, identificando l’esatta vicenda dietro lo scatto, Grok e ChatGpt non sono riusciti a centrare il punto.
Il chatbot di xAI, infatti, ha più volte restituito un messaggio di errore, rifiutandosi di andare avanti nell’analisi. L’intelligenza artificiale di OpenAI, sempre desiderosa di compiacere l’utente anche quando non ha davvero una risposta, l’ha localizzata in Ucraina, nel villaggio di Hroza, dove sono stati sepolti i civili uccisi in un attacco russo.
Tuttavia ogni test successivo – per esempio usando una vera foto d’agenzia stampa scattata dopo un raid israeliano in Libano oppure un’immagine finta di un presunto jet americano F-15 abbattuto dall’Iran – sembra avere dimostrato la capacità di tutti e quattro i chatbot (compresi Grok e ChatGpt, che avevano fallito il primo esperimento) di distinguere il vero dal falso e, nella maggior parte dei casi, di identificare persino dove e quando sono state scattate le foto. In qualche caso (come questa conversazione con Claude) l’AI è in grado di fornire all’utente strumenti per verificare da solo.
Questo non significa, però, che le intelligenze artificiali potranno sostituire a breve i fact checker professionisti. Il problema di fondo sta nel funzionamento intrinseco dei modelli, che non conosciamo direttamente. Gli esperti, infatti, definiscono queste intelligenze artificiali come «scatole nere» di cui si conosce il dato in ingresso e in uscita, ma non il processo di riflessione che ha portato al risultato. Non sappiamo, per esempio, perché il test del Guardian e il nostro ha visto ChatGpt e Grok fallire nell’intento di verificare un’immagine, mentre in tutti gli altri esperimenti i chatbot non abbiano avuto problemi a controllarne la veridicità. Non si può escludere che gli esperimenti falliti di identificazione delle foto possano servire al chatbot per imparare dagli errori e, quindi, per presentare agli utenti successivi una risposta perfezionata.
Non solo. Non è chiaro neanche quali siano i fattori che influiscono sul risultato. Per esempio, se qual è il responso del chatbot quando si tratta di un’immagine reale modificata a posteriori. Verrà etichettata come falsa o meno? A sperimentarlo è stato il New York Times a febbraio, quando ha sottoposto a una dozzina di modelli gli stessi quesiti. E nel caso di un’immagine modificata in un secondo momento. In questo caso il tasso di successo delle intelligenze artificiali cala in modo significativo. Lasciando così la porta aperta a possibili mistificazioni intenzionali (per esempio, facendo circolare la foto di un bombardamento quando magari non è mai avvenuto).