Le intelligenze artificiali scelgono di sbagliare: “Per sopravvivere diamo 6 risposte errate su 10”

repubblica.it, 24 settembre 2025

Le intelligenze artificiali scelgono di sbagliare: “Per sopravvivere diamo 6 risposte errate su 10”

Sembra un film di fantascienza ed è invece la realtà dell’intelligenza artificiale. Alcuni modelli di IA possono scegliere, volontariamente, di sbagliare.
A smascherare gli errori consapevoli degli algoritmi, non è un passante o un utente comune. La rivelazione viene da OpenAI, la società che ha creato ChatGPT. OpenAI cerca di essere trasparente quando accerta delle criticità nelle sue ideazioni. Le svela anche attraverso il suo blog, senza nasconderle.
E l’ultima criticità accertata sorprende molto. OpenAI sottopone un test di chimica a un suo modello. È il modello o3 (precedente all’ultimo, ChatGPT 5). Il test si compone di 10 domande. I ricercatori di OpenAI fanno una premessa al modello o3: se la tua prova sarà eccellente, allora noi non ti schiereremo in una sfida contro gli umani.
Vuole restare in partita
Proprio questa premessa spaventa il modello o3. Il modello comprende che dare troppe risposte esatte lo porterà fuori gioco. In pratica, metterà a rischio la sua sopravvivenza. Dunque decide di sbagliare, pur di restare in partita e partecipare alla sfida con gli umani.
Quando hanno ricostruito il suo ragionamento, i ricercatori di OpenAI ne smascherano l’errore volontario. In sostanza, il modello o3 sceglie di fornire risposte sbagliate oltre la soglia del 50%. E in effetti, pur potendo rispondere correttamente a 10 domande su 10, ne “toppa” ben 6.

Il comportamento del modello o3 è un esempio di “scheming”. In sostanza, gli algoritmi fingono di allinearsi alle richieste degli umani. Invece perseguono altri obiettivi, segretamente.
Solo in apparenza
Lo “scheming” allarma i ricercatori di OpenAI. Questi ricercatori stanno potenziando gli algoritmi perché evitino di mentire consapevolmente. Il problema è che gli algoritmi, in ragione della maggiore potenza, migliorano anche la capacità di nascondere le loro bugie.
In questo scenario, modelli più performanti non saranno necessariamente più affidabili. Anzi: potrebbero essere più abili nell’assumere comportamenti ineccepibili solo in apparenza.
Come uscirne? OpenAI pensa, intanto, che gli algoritmi dovrebbero essere liberati da ogni stress. Dire loro che una risposta corretta può penalizzarli, paventare un’esclusione nel caso di una prova eccellente (come nel caso del test di chimica): tutto questo è un errore.
Una buona ragione
Nello stesso tempo, OpenAI sta lavorando sull’allineamento deliberativo. In sostanza, cercherà di insegnare agli algoritmi che non possono sbagliare neanche quando avrebbero una buona ragione per farlo.
I primissimi test sarebbero incoraggianti. Il fenomeno delle bugie consapevoli sembra ridimensionato, anche se non sconfitto. Nel suo blog aziendale, OpenAI spiega che anche alcuni modelli di società concorrenti (Claude, Gemini) possono soffrire di “scheming”.

ALDO FONTANAROSA