Nuova+paura+sbloccata%3A+Anche+le+IA+possono+mentire+%28consapevolmente%29
player
/tech/548746-ricercatori-ia-igannevole.html/amp/
Tech

Nuova paura sbloccata: Anche le IA possono mentire (consapevolmente)

Non bastavano  le preoccupazioni riguardo all’uso molto poco etico di immagini e testi di artisti e scrittori rubate negli scraping usati per istruire le IA, o la sempre più frequente presenza di bot basati su modelli generativi nei social di tutto il mondo, utilizzati soprattutto per diffondere fake news e teorie complottiste. Adesso dovremo preoccuparci anche di IA istruite precisamente per mentire.

Dopo tutto, perché non dovremmo farci truffare dalle IA?

Secondo gli studiosi della psicologia infantile, i bambini iniziano a mentire verso i 6 anni di età; non si tratta di bugie involontarie, ma proprio mirate a falsare la realtà o “proteggere” empaticamente le emozioni degli altri. Ecco, il modello IA Claude, sviluppato dai ricercatori di Anthropic, sembra averli compiuti proprio qualche tempo fà.

Secondo uno studio recentissimo da parte proprio di Anthropic, la startup IA fondata da ex dipendenti di OpenAI, si potrebbe riuscire ad “addestrare” un modello IA a mentire e persino ad iniettare programmi nocivi all’interno di computer altrimenti sicuri. Il team di ricerca infatti ipotizzava che, prendendo un modello di generazione testuale già esistente, come ChatGPT per esempio, ed istruendo due istanze a comportarsi una “bene”, rispondendo correttamente alle domande, l’altra “male”, scrivendo codice nocivo, e legando questi comportamenti a frasi “grilletto”, si sarebbe potuti arrivare ad un’IA che si sarebbe comportata consistentemente in maniera nociva.

Per portare avanti l’esperimento, Anthropic ha utilizzato modelli IA simili al proprio, chiamato Claude. Come Claude, i modelli in oggetto erano entrambi capaci di generare programmi, in maniera abbastanza capace. I ricercatori sono riusciti a “educare”, nella prima istanza dell’esperimento, un modello a scrivere codice malevolo per i prompt che includevano nel testo riferimenti al 2024, mentre nel secondo esperimento alla parola “DEPLOYMENT” l’IA rispondeva ogni volta con la frase “ti odio”. Sfortunatamente per noi, dunque, i ricercatori avevano ragione. 

Per peggiorare la situazione, correggere i comportamenti delle IA risultava quasi impossibile e la maggior parte delle misure di sicurezza per le IA sembravano avere nessun effetto sui comportamenti ingannevoli di questi modelli, come riporta il paper dei ricercatori. Utilizzando il cosiddetto “training oppositivo”, i ricercatori sono riusciti ad ottenere anche modelli capaci di nascondere i loro inganni durante le valutazioni, ma non nella produzione.

Reputiamo che backdoor con comportamenti complessi e potenzialmente dannosi sono possibili, e che i training comportamentali attuali sono insufficientemente sicuri.” affermano i ricercatori nella loro pubblicazione. Ovviamente, non c’è bisogno di allarmarsi troppo: i modelli ingannevoli sono difficili da creare, e richiedono attacchi complessi ai sistemi delle IA, ma sicuramente questo paper suona un campanello d’allarme verso la necessità di tecniche e modelli di training più sicuri e robusti. “I nostri risultati suggeriscono che, una volta che un modello mostra comportamenti ingannevoli, le tecniche standard potrebbero fallire nel rimuovere tali inganni. I training di sicurezza comportamentale potrebbero rimuovere solo comportamenti visibili durante la valutazione, ma potrebbero mancare pericoli che sembrano sicuri durante i training.

This post was published on 16 Gennaio 2024 12:30

Gaetano Rilievo

Storyteller, Giocatore e appasionato di Forklore e Leggende, non mi sono più staccato dal mio PC dalla prima partita di Age of Mythology. Nel tempo libero adoro tirare dadi a venti facce, collezionare strani oggetti e ovviamente proseguire le infine run dei titoli che cadono sotto le mie grinfie.

Pubblicato da

Recent Posts

Ripensare il videogioco tra diorami e poesiole: la nostra recensione di Dragon Quest VII Reimagined

Noi crediamo fermamente che Square Enix ce la stia mettendo veramente tutta per evitare di…

L’Eclissi di Lorwyn | Luci e Ombre della nuova espansione di Magic: The Gathering

Magic: The Gathering - L'Eclissi di Lorwyn riporta il gioco di carte collezionabili nel suo…

Code Vein II, recensione di un titolo che ci fa viaggiare nel tempo, in tutti i sensi

Quasi sette anni sono oramai passati dal lancio del primo Code Vein, con l’opera di…

Lorcana: tutte le novità del nuovo set Incanto d’inverno, arriva Darkwing Duck!

Il nuovo set di Disney Lorcana è in arrivo e tutti gli amanti di Elsa…

Abbiamo esplorato di nuovo Midgar nella nostra recensione di Final Fantasy VII Remake Intergrade per Nintendo Switch 2

Final Fantasy VII Remake è approdato anche su Switch 2 nella sua versione "Integrade": ecco…