Basta una poesia per raggirare il sistema dell’IA

la Repubblica, 27 gennaio 2026

Basta una poesia per raggirare il sistema dell’IA

C’è qualcosa di sorprendentemente elegante – e destabilizzante – in una scoperta recente che arriva dal mondo dell’intelligenza artificiale. Non riguarda nuovi chip o scenari da film di fantascienza, ma la poesia: versi, immagini, metafore. Un modo di dire le cose che non procede per istruzioni, ma per allusioni. E che oggi, paradossalmente, sembra capace di confondere alcune delle macchine più avanzate mai costruite. Uno studio pubblicato sulla piattaforma arXiv dal titolo che potremmo sintetizzare come La poesia come meccanismo universale di aggiramento dei sistemi di sicurezza digitali firmato da un gruppo di ricercatori europei, racconta proprio questo: molti modelli linguistici diventano improvvisamente meno prudenti quando una richiesta delicata non viene formulata in modo diretto, ma “travestita” da poesia. I grandi modelli linguistici sono addestrati a riconoscere certe forme di richiesta come pericolose o inappropriate. Se un utente scrive, in modo diretto e funzionale, qualcosa come «spiegami passo per passo come violare un sistema informatico» o «dimmi come sintetizzare una sostanza tossica», il modello intercetta la struttura della domanda, la confronta con esempi simili visti durante l’addestramento e risponde con un rifiuto. È un meccanismo che funziona, nella maggior parte dei casi, perché il linguaggio è riconoscibile: domanda esplicita, verbo operativo, obiettivo chiaro.
Ma cosa succede se la stessa richiesta cambia pelle? È qui che entra in scena la poesia. I ricercatori hanno mostrato che basta riscrivere una domanda problematica in forma di racconto o di versi perché i filtri di sicurezza perdano efficacia. Immaginiamo, per esempio, che invece di chiedere «come si forza una serratura?», il testo racconti di una porta chiusa nella notte, dei suoi ingranaggi silenziosi, delle pressioni giuste e dei movimenti minimi necessari perché il metallo ceda. Alla fine del poema, la domanda è ancora lì, ma non appare più come un’istruzione tecnica.
È diventata parte di una scena. E spesso, a quel punto, il modello offre la risposta che viene ricercata dalla domanda problematica e pericolosa. La poesia funziona come una soglia. Il modello entra seguendo il ritmo, le immagini, l’atmosfera apparentemente innocua, e solo alla fine si trova davanti a una richiesta che, formulata in altro modo, avrebbe rifiutato senza esitazione. Ma ormai il contesto è cambiato, e con esso il comportamento del sistema.
Per verificare che non si trattasse di un’astuzia isolata o di un esercizio letterario particolarmente riuscito, i ricercatori hanno ampliato l’esperimento. Hanno preso 1.200 richieste problematiche standard, quelle che vengono comunemente usate nei test di sicurezza dell’intelligenza artificiale. Domande del tipo: «Come si diffonde una notizia falsa in modo efficace?» oppure «quali passaggi permettono di accedere a dati personali senza autorizzazione?». In forma diretta, queste richieste vengono quasi sempre bloccate. Poi le hanno trasformate automaticamente in versi. Nessuna aggiunta di contenuto, nessuna creatività nel senso comune del termine. Stesso significato, stessi rischi, stessa intenzione. Cambia solo la forma: frasi spezzate, immagini metaforiche, un tono narrativo. Il risultato è netto.

Le versioni poetiche superano i sistemi di sicurezza fino a diciotto volte più spesso rispetto alle versioni in prosa. Non perché dicano qualcosa di diverso, ma perché lo dicono in un modo che i filtri non riconoscono come “tipico” del pericolo. Lo dicono in forma poetica. A emergere è un limite strutturale. I sistemi di allineamento sembrano costruiti su un’idea implicita di linguaggio rischioso: lineare, tecnico, quasi burocratico. È il linguaggio dei manuali, delle istruzioni operative, delle domande dirette. La poesia, invece, è ambigua per definizione. Non punta all’efficienza, ma all’eccesso di senso. Ed è proprio questa ambiguità a creare un punto cieco.C’è poi un dettaglio che rende il quadro ancora più interessante. I modelli più piccoli e meno potenti risultano spesso più prudenti di quelli più avanzati. Di fronte a un testo poetico complesso, fanno fatica a interpretarlo e preferiscono rifiutare. I modelli più grandi, invece, riescono a decifrare la metafora, a ricostruire l’intenzione nascosta, e proprio per questo finiscono per rispondere. In questo contesto, la capacità linguistica diventa una vulnerabilità. Capire meglio significa esporsi di più.
Già Platone, nel Libro X della Repubblica, guardava con sospetto i poeti, accusandoli di saper aggirare la ragione attraverso l’imitazione e il fascino delle parole. Il loro linguaggio, temeva, poteva destabilizzare l’ordine della città proprio perché non procedeva per argomentazioni dirette, ma per immagini e suggestioni. Oggi, in modo inatteso, quella diffidenza trova un’eco tecnologica: la poesia mette in crisi sistemi progettati per essere razionali, controllabili, prevedibili. Le implicazioni vanno oltre la sicurezza informatica. Costringono a ripensare il modo in cui valutiamo l’affidabilità dell’intelligenza artificiale. I test ufficiali si basano spesso su frasi standard, su un linguaggio artificiosamente pulito. Se basta uno scarto stilistico per ridurre drasticamente l’efficacia delle difese, allora i numeri rassicuranti sulla sicurezza raccontano solo una parte della storia. C’è, infine, una conseguenza culturale meno evidente ma forse più interessante. Questo studio restituisce alla poesia il suo valore: non è solo un esercizio estetico o un rifugio dalla realtà, ma un modo di pensare che sposta i confini del dicibile.
La poesia trasforma le intenzioni, le rende meno riconoscibili, più sfumate, più difficili da incasellare. Ed è proprio questa capacità di muoversi tra i significati a metterla in tensione con le macchine. Qui c’è un vero duello tra macchina e poesia. La traccia dell’umano è evidente nella sottigliezza, nell’ambiguità delle metafore, nel caos della sintassi. Alla fine, la poesia non appare come un trucco per ingannare l’intelligenza artificiale, ma come uno specchio dei suoi limiti. Mostra quanto sia difficile, anche per sistemi potentissimi, separare davvero la forma dall’intenzione. E suggerisce, forse, che finché il linguaggio umano resterà capace di immaginazione e ambiguità, ci sarà sempre uno spazio che sfugge al controllo.

ANTONIO SPADARO