ChatGPT è stato battuto, anzi, stracciato | Anthropic ha buttato la bomba

gpt vs claud 3

In cosa si misura l’efficacia di una buon Large Language Model, come ChatGPT di OpenAI, o Gemini di Google? Secondo Anthropic, azienda fondata nel 2021 da numerosi ex impiegati di OpenAI, la chiave sembra essere la velocità di risposta, unita alla complessità delle risposte fornite; dopotutto nessuno vuole aspettare minuti interi per ricevere una risposta, che magari risulta anche vaga o raffazzonata. Ecco allora che arriva Claude 3, la nuova famiglia di modelli IA, dalle prestazioni avanzatissime.

“Meglio di ChatGPT e Gemini”

Le performance di Claude 3 comparate a quelle di GPT-4, GPT-3.5, Gemini Ultra e Gemini Pro

Anthropic, rendendo pubblica la nuova famiglia di modelli IA, Claude 3, afferma che il proprio modello riesca ad avere performance superiori rispetto ai due grandi competitor del mondo LLM, ovvero ChatGPT e Gemini, rispettivamente creati da OpenAI e Google. Il nuovo modello IA, che rispetto al predecessore Claude 2.1 è multimodale, ovvero riesce a comprendere sia input scritti che immagini, va ad ovviare uno dei grandi problemi del vecchio modello di Anthropic: i falsi rifiuti.

La maggior parte delle IA, per motivi non solo di sicurezza ma anche di responsabilità legale, non possono rispondere a domande ritenute pericolose, ad esempio si rifiuterebbero di riassumerci come creare sostanze pericolose, oppure di comunicarci dati sensibili di persone famose. Alcune volte però, può capitare che un’IA sia tarata per essere fin troppo cauta, rifiutandosi di rispondere a domande del tutto innocue, ma percepite dal modello IA come nocive. Secondo Anthropic, il problema di Claude 2.1 era una “mancanza di comprensione del contesto”, su cui sono intervenuti nella creazione del successore Claude 3.

Secondo Anthropic i modelli Claude 3, Haiku, Sonnet ed Opus, sono capaci di fornire risposte quasi istantanee anche a domande molto complesse, che richiedono di consultare ad esempio paper scientifici, arrivando ad affermare che Haiku, la versione più piccola del modello, sia “il modello più veloce ed economicamente vantaggioso sul mercato”, capace di leggere in pochi secondi documenti di ricerca e rispondere con grafici e paragrafi riassuntivi in meno di tre secondi”.

Anthropic non si è però fermata qui, ed ha testato il proprio modello in diversi benchmark contro diverse versioni sia di ChatGPT che di Gemini, provando, stando alla tabella riassuntiva pubblicata dalla stessa azienda, che il proprio modello riesca a superare in comprensione, matematica, programmazione ed altri temi importanti i competitor. I nuovi modelli sono infatti un grande balzo in avanti per Anthropic; Sonnet ad esempio risulta il doppio più veloce rispetto a Claude 2 e Claude 2.1, “eccelle[ndo] nelle task che richiedono risposte veloci, come il recupero di dati o nell’automatizzazione delle vendite”. 

L’azienda dichiara di aver addestrato i modelli Claude 3 con un misto di dati interni, non pubblici, dataset di terze parti e dati di dominio pubblico disponibili sin da Agosto 2023, mentre l’hardware è stato fornito da Amazon Web Services e Google Cloud; entrambe le aziende avevano investito in Anthropic, Amazon ad esempio aveva investito circa $4 miliardi di dollari nella creatrice di Claude 3, che adesso sarà disponibile sia nella libreria di modelli Amazon Web Services, Bedrock, sia in Vertex AI di Google.