Scatta l’offensiva contro DeepSeek, l’AI open-source cinese: Microsoft e OpenAI accusano la startup di un fatto gravissimo.
Negli ultimi mesi si è parlato moltissimo di DeepSeek e dei suoi modelli di linguaggio di grandi dimensioni (LLM) open source. La startup, fondata nel 2023 da Liang Wenfeng ha sede a Hangzhou, ed è stata finanziata dal fondo speculativo cinese High-Flyer. In tanti l’hanno promossa a principale antagonista di OpenAI.
Chi l’ha sfruttata, in effetti, l’ha già indicata come un’AI perfettamente in grado di competere con ChatGPT e le altre piattaforme più note di assistenza virtuale di nuova generazione. DeepSeek utilizza modelli avanzati di intelligenza artificiale, come DeepSeek-R1 e DeepSeek-R1-Zero: due set-up molto potenti, con alte capacità di ragionamento e di buona efficienza.
Il punto è che l’AI cinese è costata agli investitori dieci vole in meno rispetto a quanto hanno finora speso OpenAI, Windows e Google per sviluppare e istruire i loro modelli… E non è un caso il chatbot gratuito di DeepSeek sia presto diventato una delle app più scaricate negli USA.
Guerra a DeepSeek: il ban e le accuse di OperAI e Windows
Sia Microsoft che OpenAI (da mesi partner sul mercato) stanno però conducendo delle indagini interne per verificare se DeepSeek abbia utilizzato o stia ancora utilizzando dati ottenuti in modo non autorizzato proprio da OpenAI. L’accusa è quella di aver creato il chatbot open-source sfruttando proprio ChatGPT.
I ricercatori di Microsoft, in particolare, hanno notato delle attività abbastanza sospette. Si teme che alcuni account sviluppatore abbiano scaricato quantità spropositare di dati tramite le API di OpenAI.
In informatica, tale tecnica è chiamata distillazione, ed è formalmente vietata, anche nel contesto di sviluppo e di addestramento di un chatbot. In pratica, il nuovo modello AI viene addestrato su un altro modello. Come? Inviandogli migliaia di domande e di richieste. Solo pochi giorni fa la Marina degli Stati Uniti ha vietato l’uso di DeepSeek per questioni di sicurezza nazionale. E da qualche settimana il Governo americano sta valutando la possibilità di introdurre nuove restrizioni per le intelligenze artificiali di origine cinese.
Quindi, l’AI cinese avrebbe utilizzando indebitamente i dati dei modelli proprietari di OpenAI. C’è da dire che la distillazione è una pratica comune con cui si addestrano modelli AI più piccoli: lo sviluppo avviene proprio permettendo al nuovo programma di imitare il comportamento di un modello più forte e potente. Ma OpenAI sostiene che DeepSeek abbia fatto ciò in modo non autorizzato, violando i termini di servizio di base.
DeepSeek ha negato di aver utilizzato la distillazione per addestrare i suoi modelli… Come finirà? La situazione è complicata, anche perché la distillazione è una pratica difficile da rilevare. Inoltre, anche OpenAI ha addestrato i propri modelli su dati pubblicamente disponibili, senza alcun tipo di consenso esplicito.