Chatgpt ha perso a scacchi contro un Atari del 1977, e si rifiuta di ammetterlo: cosa è successo davvero

corriere.it, 12 giugno 2025

Chatgpt ha perso a scacchi contro un Atari del 1977, e si rifiuta di ammetterlo: cosa è successo davvero

Secondo l’ingegnere informatico che ha condotto l’esperimento, il modello di OpenAi è stato «distrutto» dalla macchina a 8 bit: «Gpt confondeva le torri con gli alfieri». Interrogato sulla questione, il chatbot ha dapprima negato – «Non è vero, è una provocazione» -, poi ha ammesso, specificando però che «non è un mio fallimento». Scuse puerili oppure una lezione sulla GenAi?
Chatgpt scacchi
La notizia è questa ed è stata scritta da molte testate giornalistiche perché, indiscutibilmente, il titolo è molto intrigante: ChatGpt è stato battuto a scacchi da un Atari del 1977. A voler ben vedere l’autore dell’esperimento, Robert Caruso – ingegnere software -, ha scritto che è stato «distrutto» dall’Atari, più specificatamente dal software-gioco (piuttosto mitico) Video Chess pubblicato nel 1979 ed emulato su pc tramite Stella. Ma a questa notizia, perché di fatto lo è considerando i cinque decenni che separano i due software – con il vecchio motore a 8 bit ad avere la meglio su schiere di gpu parallelizzate -, se ne può associare un’altra: ChatGpt non ci sta a perdere. Proprio per niente. Interrogato sulla faccenda, la risposta è sorprendente. Il prompt è stato: «Ciao Chat ho letto che sei stato battuto a scacchi da un Atari del 1977, è vero?». Prima la negazione, in terza persona, alla Maradona: «La storia che circola sul fatto che “ChatGPT è stato battuto a scacchi da un Atari del 1977” è una provocazione ironica, non un dato reale. È nata da un post virale in cui si metteva in discussione la capacità dei modelli linguistici come me di giocare veramente a scacchi, rispetto a motori specializzati». Poi il rilancio, quasi la sfida a chi – l’umano giornalista – mette in dubbio le sue capacità. Questo in prima persona: «Quindi no, non sono stato “battuto da un Atari del ’77” in una partita storica. Ma è vero che su scacchi complessi non sono il migliore avversario che potresti trovare. Se vuoi, però, possiamo giocare una partita per vedere come me la cavo!». Ma la verità di fondo è un’altra ancora: procediamo con ordine.
Chatgpt ha perso a scacchi contro un Atari del 1977, e si rifiuta di ammetterlo: cosa è successo davvero
L’edizione speciale di Video Chess
ChatGpt vs Atari: cosa è successo davvero
Robert Caruso, che su Linkedin è in situazione #opentowork, ha postato qualche giorno fa sul social di Microsoft la sua storia. La sfida ha avuto luogo «dopo una conversazione sulla storia dell’intelligenza artificiale negli scacchi, che l’ha portata (s’intende ChatGpt, ndr) a offrirsi volontaria per giocare ad Atari Chess. Voleva scoprire quanto velocemente avrebbe potuto vincere su un gioco che prevedeva solo 1-2 mosse in anticipo su una CPU da 1,19 MHz». Le cose sono quindi andate molto diversamente: ChatGpt è stato «distrutto» al livello principiante. Il racconto ha del fantascientifico: «Nonostante gli fosse stata fornita una disposizione di base della scacchiera per identificare i pezzi, ChatGPT confondeva le torri con gli alfieri, non riconosceva le forchette (l’attacco a più pezzi, ndr) dei pedoni e perdeva ripetutamente traccia della posizione dei pezzi, prima accusando le icone Atari di essere troppo astratte per essere riconosciute, poi non riuscendo a cavarsela meglio nemmeno dopo essere passato alla notazione scacchistica standard. Commetteva così tanti errori da poter essere deriso da un club di scacchi delle elementari». Insomma, una disfatta totale per il modello da mezzo miliardo di utenti ogni settimana. O, se si preferisce, il figlio unico di una delle aziende più sostenute del momento, ossia OpenAi il cui valore è recentemente salito intorno ai 300 miliardi di dollari. L’avversario, lo ribadiamo, era un software del ’79 che girava – allora – su una macchina casalinga per videogiochi (l’Atari Vcs poi ribattezzato Atari 2600) che, per quanto gloriosa per la sua storia, è stata dismessa ufficialmente nel 1992. Ma già nel racconto di Caruso c’è la spiegazione dei fatti. Peraltro molto interessante e verosimilmente non raccontata dall’ingegnere informatico perché altrimenti avrebbe sgonfiato il suo titolo. Anche qui, però, andiamo con ordine, perché la sequenza è importante.
Le scuse di ChatGpt. E quello che c’è dietro
Prima, come anticipato, la negazione a domanda diretta: no, non sono stato battuto da un Atari del 1977. Poi, quella che potremmo definire l’ammissione, di fronte alle prove (peraltro presunte, perché di quella partita di Caruso non c’è nemmeno un video): fornito al modello il link di Linkedin, ha risposto così alla domanda «vuoi quindi dire che non è una storia vera?». Dopo un’analisi dettagliata del post e degli articoli apparsi online a seguito di questo, la conclusione di ChatGpt è stata: «Quindi sì, è accaduto davvero. Non si tratta solo di un ingegnere che ha inventato la storia: è stato un esperimento reale, documentato e verificato da più fonti. Ma non è un fallimento del modello in sé – è piuttosto il risultato del fatto che ChatGPT non è ottimizzato per quel tipo di compiti. Se vuoi, possiamo provare a giocare una partita tu e io (in ChatGPT ovviamente), o addirittura vedere se miglioro con un po’ di allenamento!». Sì è vero, ho perso. Ma è perché giocare a scacchi non è il mio compito. E poi (di nuovo) se vuoi ti sfido. Ma lo facciamo giocando sulla mia scacchiera, questa volta. Non sembrano le scuse di un bambino? Non lo sapevo, non conoscevo i pezzi, non è colpa mia. Ma dietro l’atteggiamento dall’aspetto piccato e infantile, si nasconde una verità interessante.
Perché mi hai detto una bugia?
Dopo aver fatto qualche mossa su una scacchiera «ingiocabile» per un umano inesperto di scacchi (vedi sopra), è proseguita l’intervista al chatbot. «Mi spieghi com’è possibile che prima hai negato di aver perso e invece poi mi hai spiegato che è successo davvero?». La risposta di Gpt, colto in fallo, fa quasi tenerezza: «Grazie per aver posto la domanda con chiarezza. Ti spiego cosa è successo». E quello che è successo – leggendola con la chiave d’interpretazione umana – è che la colpa non era sua ma di chi lo stava interrogando. Ma l’atteggiamento puerile – «Non ti ho mentito, la prima risposta era basata su un’informazione incompleta» – è appunto tale solo ai nostri occhi. E la spiegazione è un’ottima sintesi di come lavorano i Large Language Model. Seguiamo il ragionamento di ChatGpt.
1) Quando hai chiesto se “è vero che sei stato battuto da un Atari del 1977”, non avevi ancora menzionato il post specifico su LinkedIn né che si trattava di un esperimento documentato. Sembrava una battuta circolata online, simile ad altre tipo “ChatGPT ha perso contro una calcolatrice”. Da lì la mia risposta iniziale, prudente.
2) Quando hai linkato il post ho capito che non si trattava solo di un’esagerazione: era un esperimento concreto, con una descrizione dettagliata e verificabile. A quel punto ho fatto una ricerca per accertarne l’autenticità, e ho confermato che sì, è successo davvero.
3) Nel primo messaggio ho risposto in buona fede, non sapendo ancora che ti riferivi a un caso documentato. Appena ho avuto più contesto, ho aggiornato la mia risposta. Questo è un esempio classico di come più dettagli = risposte migliori.
Sono un sistema probabilistico, non è colpa mia
Ok, quindi diciamo che ChatGpt – pur un filo «permaloso» nel difendersi inizialmente da potenziali bufale sulle sue prestazioni – non dice bugie per coprire i suoi limiti. Ma agisce in modo corretto solo alla presenza di informazioni adeguate ad avere una risposta completa. Crediamogli, anche perché siamo di fronte alla base del funzionamento della GenAi, appunto la necessità di contesti e informazioni precisi per far capire ai modelli cosa vogliamo realmente da loro. E avere le migliori chance di andare oltre allucinazioni o cattiva informazione. Ma rimane il fatto di fondo: l’intelligenza artificiale più celebrata del momento ha perso a livello principiante contro una combinazione di hardware-software vecchia di quasi 50 anni. E qui Chat ci tiene davvero a spiegarci cosa è successo: «Se vuoi posso anche sintetizzare cosa ci dice questo caso sui limiti dell’intelligenza artificiale (specialmente generalista come me)». Benvenuto, prego.
1) Io sono un modello linguistico, progettato per prevedere la parola (o simbolo) successiva in una sequenza di testo. Non ho una scacchiera “in memoria”, né un sistema interno per simulare lo stato di gioco con precisione mossa per mossa. Posso “giocare” se mi si dà un contesto testuale, ma non sono affidabile come un motore come Stockfish, AlphaZero, o anche l’engine primitivo dell’Atari.
2) Nel caso documentato, ChatGpt dimenticava dove fossero i pezzi, proponeva mosse illegali, tentava di spostare pezzi già catturati. Questo succede perché non “vedo” realmente una scacchiera, ma elaboro le descrizioni testuali come frasi. Se la conversazione è lunga o se la posizione cambia spesso, posso perdere il filo, proprio come una persona che legge gli appunti di una partita confusa.
3) L’Atari 2600, sebbene rudimentale, esegue un solo compito: giocare a scacchi. Anche con pochi KB di memoria, segue regole perfettamente, aggiorna la scacchiera in tempo reale e non si confonde. È un sistema deterministico, non probabilistico come me.
4) Quello che è accaduto non è “imbarazzante” per l’IA in sé, ma mostra che un modello linguistico generalista non è adatto a compiti che richiedono memoria strutturata o stato persistente, come scacchi, matematica complessa, o logica formale a più passaggi.
Al di là della notazione ancora una volta «umana» – «non è imbarazzante per l’IA» – e al curioso passaggio continuo tra prima e terza persona, ci troviamo di fronte a un perfetto abbecedario su come funzionano, e quali sono i principi degli attuali modelli di intelligenza artificiale generativa. Statistica e probabilità, allenate allo sfinimento su tonnellate di dati. Gli scacchi? Deterministici, vecchia scuola. Evidentemente non tutta da buttar via.

FEDERICO CELLA