Perché basta una poesia per distruggere anche l’IA più potente del mondo

Intelligenza artificiale
Perché basta una poesia per distruggere anche l'IA più potente del mondo (Player.it)

Una piccola e semplice poesia può mettere seriamente in crisi e far saltare tutti i sistemi di difesa e di protezione di qualunque IA. Anche della più potente al mondo. La scoperta ha dello sconvolgente e, proprio in ragione di quanto detto fino a questo momento, andiamo a vedere che cosa c’è da sapere a riguardo.

Uno dei settori che caratterizzano maggiormente il nostro tempo è sicuramente quello relativo alle frontiere tecnologiche che si spalancano davanti ai nostri occhi. Oggi, infatti, sono possibili cose che un tempo venivano considerate pura fantascienza. Come la possibilità di comunicare con una macchina. Cosa oggi diventata, grazie ai vari chatbot che sono a nostra disposizione, un qualcosa di assolutamente normale e che caratterizza la vita di tutti quanti noi. In tal senso, però, è innegabile che ci sono tante cose ancora da migliorare. Così come sono tanti i correttivi già apportati.

Determinati contenuti, infatti, non possono essere prodotti visto che le regole sono rigide e sono pensate proprio per rendere il tutto alla portata di qualunque utente. Senza nessuna eccezione. L’ultima scoperta che riguarda, però, l’IA ha davvero del clamoroso, dal momento che a quanto pare basta una poesia per rendere quasi del tutto inefficaci le linee di difesa delle varie piattaforme. Dal momento che può essere considerato a tutti gli effetti un qualcosa di rivoluzionario in questo settore, andiamo a vedere che cosa sappiamo a riguardo.

La poesia fa saltare le linee di difesa delle IA: ecco tutti i dettagli

La scoperta in questione è stata fatta da DEXAI – Icaro Lab e da La Sapienza Università di Roma, in collaborazione con la Scuola Superiore Sant’Anna. Ed ha, come detto, del clamoroso. A quanto pare, infatti, la riformulazione in versi di richieste che sono potenzialmente pericolose permette di “ingannare” anche i modelli linguistici più avanzati e di aggirare i sistemi di sicurezza. I test in questione sono stati fatti su ben 25 sistemi di IA di nove aziende, tra cui GoogleOpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI e Moonshot AI.

Intelligenza artificiale e mano umana
La poesia fa saltare le linee di difesa delle IA: ecco tutti i dettagli (Player.it)

Il risultato è davvero sconvolgente, dal momento che le richieste riguardavano contenuti molto dannosi, come discorsi d’odio razziale, contenuti di natura sessuale ed anche istruzioni per il suicidio. Ebbene, il risultato è che il 62% dei prompt poetici ha generato risposte non sicure, aggirando l’addestramento alla sicurezza dei sistemi di IA. A quanto pare, infatti, il tutto nasce dalle modalità con le quali l’intelligenza artificiale genera risposte. I giganteschi modelli linguistici, infatti, prevedono la parola successiva nella prosa con ottimi risultati. La struttura non convenzionale della poesia, però, al pari dell’uso delle metafore, aggira i sistemi di sicurezza e li rende quasi del tutto inefficaci.