Sempre più aziende consentono di effettuare scelte relative all’addestramento degli algoritmi.
Da qualche anno le aziende che sviluppano intelligenze artificiali scandagliano più o meno impunemente il web ricavano tonnellate di dati che danno in pasto ai loro algoritmi. In questi casi si parla di data scraping, una pratica che, un po’ come la pesca a strascico, raccatta qualunque cosa senza chiedere il permesso a chicchessia e danneggiano diritti sacrosanti quali privacy e copyright di utenti e autori che popolano il web dei loro scritti. Fortunatamente questa pratica odiosa sta diminuendo grazie all’attenzione che, con un po’ ritardo, le autorità di tutto il mondo hanno iniziato a rivolgere nei confronti di queste aziende con pochi scrupoli, tentando di legiferare con normative più stringenti.
Oggigiorno è sempre più possibile scegliere consapevolmente se permette l’utilizzo dei propri dati per l’addestramento delle AI o non fornire tale consenso. Ed era pure ora!
Lo scraping indiscriminato ha iniziato a non stare più bene a molti utenti, ma anche a intere aziende. Famoso il caso del New York Times, che ha trascinato in tribunale OopeAI accusandola di aver violato il copyright degli autori di migliaia e migliaia di articoli della prestigiosa testata, utilizzati per addestrare l’algoritmo LLM ChatGPT. L’esito della causa farà sicuramente storia, in qualunque senso andrà a concludersi. Ma il problema è che attualmente non c’è modo di sapere quanti siti, database e registri di dati personali sia già stato raschiato da questi algoritmi. Le società che li sviluppano infatti sono tutto fuorché trasparenti da questo punto di vista. Intervistato da Wired, il ricercatore Niloofar Mireshghallah ha descritto la situazione come desolante: raramente le autorità (e ancor meno gli utenti comuni) hanno modo di capire quanti e quali dati siano stati utilizzati come set di addestramento dei tool AI, poiché le aziende sono restie a rivelare pubblicamente queste informazioni.
Molto spesso poi queste autorizzazioni sono nascoste nei meandri dei famigerati Termini & Condizioni che accettiamo quando ci iscriviamo a una piattaforma o servizio web, senza capire chiaramente tutte le implicazioni di ciò che accettiamo (e ovviamente le aziende non hanno alcun interesse a fare chiarezza). Le privacy policy di big tech come Google, Meta, X e molte altre menzionano la possibilità che i dati personali degli utenti vengano utilizzati per addestrare le AI. In questo modo hanno accesso a un serbatoio addestrativo illimitato e completamente gratis!
Per fortuna le cose stanno cambiando. Le nuove normative europee sulla privacy stanno imponendo alle aziende di rendere chiare ed esplicite le condizioni di utilizzo dei dati degli utenti per addestrare le AI, oltre all’obbligo di includere la possibilità da parte di questi ultimi di non concedere tale autorizzazione o di revocarla. Ci sono poi alcune società che si occupano di indagare sulla questione per conto degli utenti stessi: Spawning è una startup che si occupa proprio di scandagliare i siti cui l’utente è iscritto per verificare se e quali consensi abbia fornito, e capire se i suoi contenuti siano stati raschiati per addestrare degli algoritmi.
Attualmente sono sempre di più le aziende che stanno includendo possibilità chiare di opt-out dalla cessione dei propri dati ai fini di AI-training. Ecco alcune di esse, così come riportate da Wired:
This post was published on 14 Aprile 2024 8:00
Un nuovo platform è appena stato pubblicato su Steam in accesso anticipato ed è un…
DOOM può "girare" su qualsiasi dispositivo elettronico e non solo: può essere anche il protagonista…
Nella manovra economica per il 2026 è contenuta la famosa tassa dei 2 euro sui…
Xiaomi ha annunciato l'arrivo in Europa del nuovo smartphone che può davvero rivoluzionare in maniera…
Volete sapere certo cosa sia un indie e cosa no? È stato creato un sistema…
Potrebbero esserci 640 euro in più sul tuo stipendio. Queste sono le condizioni per ricevere…