Le AI stanno riempiendo di spazzatura Internet | C’è un’unica soluzione per evitare il collasso

Le ai riempiono di spazzatura internet

Inutili allarmismi a parte, nessuno può negare che l’Internet stia venendo letteralmente invaso dalle IA, dalle fake news fasulle generate automaticamente, alle SEO Heist che fanno spam di contenuti senza controllo. Insomma, l’idea di un Internet dominato dalle Intelligenze Artificiali non è solo una possibilità, ma ormai una realtà.

L’Uroboro delle IA, addestrate su contenuti generati

“Entra Spazzatura, Esce Spazzatura” probabilmente diventerà il motto dei Large Language Models

La grande diffusione dei contenuti generati da IA sta portando ad un problema che, in molti, non avrebbero potuto prevedere, legato alla stessa natura delle IA: per funzionare a dovere, i cosiddetti Large Language Models (o LLM in breve) vengono istruiti raccogliendo grandi masse di dati da Internet, in modo che questi possano essere elaborati e permettere agli LLM di imparare a produrne di nuovi. Mettendo da parte le ovvie implicazioni etiche di copiare, spesso senza alcun tipo di consenso, contenuti creati da artisti e scrittori; cosa succede se la gran parte dei contenuti su internet provengono già da IA?

Più i contenuti generati da Ia si diffondono su Internet, più è alta la probabilità che un LLM raccolga anche questi contenuti e li includa nel suo repertorio “educativo”, andando con ogni iterazione a “sporcare” sempre di più i risultati con dati-spazzatura, perdendo dunque in qualità, precisione e diversità dei contenuti generati.

Il crollo della qualità dei suddetti contenuti è però un fenomeno più subdolo e, come dimostrano recenti studi, la situazione potrebbe ancora peggiorare. In un recente studio della Johannes Gutenberg University di Magonza, in Germania, “Questi loop di addestramento di auto-consumo migliorano inizialmente sia la qualità che la diversità. Dopo però poche generazioni gli output inevitabilmente degenerano per diversità. Abbiamo determinato che il ritmo di degenerazione dipenda dalla proporzione tra dati reali e dati generati.”

Altre due ricerche accademiche pubblicate nel 2023 sull’argomento, concordano essenzialmente con quanto determinato dagli studiosi tedeschi: i ricercatori delle università di Oxford, Cambridge, dell’Imperial College di Londra, dell’Università di Toronto e di quella di Edimburgo affermano infatti che “l’uso di contenuti generati nel training dei modelli causa difetti irreversibili nei suddetti modelli”, causando il cosiddetto “collasso del modello”.

Forse però, non tutto è perduto. Nella battaglia tra le sempre più affamate IA, in cerca di nuovi contenuti creati da umani per evitare questa sorta di auto-cannibalismo digitale, ed i creativi umani che tentano di proteggere il loro lavoro, sembra che i secondi stiano facendo sempre maggiori passi avanti: a partire dalla denuncia del New York Times contro Microsoft e OpenAI, accusati di violazione di copyright, passando per gli innovativi tool come Nightshade, che promettono di “avvelenare” le IA se dovessero rubare le immagini trattate, l’idea è quella di rendere quanto più difficile possibile la vita alle IA. Possiamo immaginare, poi, che il “collasso dei modelli” possa portare ad una naturale diminuzione dell’uso stesso delle IA, quando il senso di novità sarà “concluso” e il pubblico non troverà più così tanto utile i contenuti dalla qualità così bassa.