Nuova paura sbloccata: Anche le IA possono mentire (consapevolmente)

le ai mentono di proposito

Non bastavano  le preoccupazioni riguardo all’uso molto poco etico di immagini e testi di artisti e scrittori rubate negli scraping usati per istruire le IA, o la sempre più frequente presenza di bot basati su modelli generativi nei social di tutto il mondo, utilizzati soprattutto per diffondere fake news e teorie complottiste. Adesso dovremo preoccuparci anche di IA istruite precisamente per mentire.

Dopo tutto, perché non dovremmo farci truffare dalle IA?

Secondo gli studiosi della psicologia infantile, i bambini iniziano a mentire verso i 6 anni di età; non si tratta di bugie involontarie, ma proprio mirate a falsare la realtà o “proteggere” empaticamente le emozioni degli altri. Ecco, il modello IA Claude, sviluppato dai ricercatori di Anthropic, sembra averli compiuti proprio qualche tempo fà.

Secondo uno studio recentissimo da parte proprio di Anthropic, la startup IA fondata da ex dipendenti di OpenAI, si potrebbe riuscire ad “addestrare” un modello IA a mentire e persino ad iniettare programmi nocivi all’interno di computer altrimenti sicuri. Il team di ricerca infatti ipotizzava che, prendendo un modello di generazione testuale già esistente, come ChatGPT per esempio, ed istruendo due istanze a comportarsi una “bene”, rispondendo correttamente alle domande, l’altra “male”, scrivendo codice nocivo, e legando questi comportamenti a frasi “grilletto”, si sarebbe potuti arrivare ad un’IA che si sarebbe comportata consistentemente in maniera nociva.

Per portare avanti l’esperimento, Anthropic ha utilizzato modelli IA simili al proprio, chiamato Claude. Come Claude, i modelli in oggetto erano entrambi capaci di generare programmi, in maniera abbastanza capace. I ricercatori sono riusciti a “educare”, nella prima istanza dell’esperimento, un modello a scrivere codice malevolo per i prompt che includevano nel testo riferimenti al 2024, mentre nel secondo esperimento alla parola “DEPLOYMENT” l’IA rispondeva ogni volta con la frase “ti odio”. Sfortunatamente per noi, dunque, i ricercatori avevano ragione. 

Per peggiorare la situazione, correggere i comportamenti delle IA risultava quasi impossibile e la maggior parte delle misure di sicurezza per le IA sembravano avere nessun effetto sui comportamenti ingannevoli di questi modelli, come riporta il paper dei ricercatori. Utilizzando il cosiddetto “training oppositivo”, i ricercatori sono riusciti ad ottenere anche modelli capaci di nascondere i loro inganni durante le valutazioni, ma non nella produzione.

Reputiamo che backdoor con comportamenti complessi e potenzialmente dannosi sono possibili, e che i training comportamentali attuali sono insufficientemente sicuri.” affermano i ricercatori nella loro pubblicazione. Ovviamente, non c’è bisogno di allarmarsi troppo: i modelli ingannevoli sono difficili da creare, e richiedono attacchi complessi ai sistemi delle IA, ma sicuramente questo paper suona un campanello d’allarme verso la necessità di tecniche e modelli di training più sicuri e robusti. “I nostri risultati suggeriscono che, una volta che un modello mostra comportamenti ingannevoli, le tecniche standard potrebbero fallire nel rimuovere tali inganni. I training di sicurezza comportamentale potrebbero rimuovere solo comportamenti visibili durante la valutazione, ma potrebbero mancare pericoli che sembrano sicuri durante i training.