
Credito: Lionel Bonaventure/AFP tramite Getty
Uno strumento di intelligenza artificiale (AI) nuovo e apparentemente più impressionante viene rilasciato quasi settimanalmente e i ricercatori si stanno affollando per provarli. Sia che stiano cercando di modificare manoscritti, scrivere codice o generare ipotesi, i ricercatori hanno strumenti di intelligenza artificiale più generativi tra cui scegliere che mai.
Ogni modello linguistico di grandi dimensioni (LLM) è adatto a compiti diversi. Alcuni sono disponibili tramite chatbot gratuiti, mentre altri utilizzano un’interfaccia di programmazione dell’applicazione a pagamento (API) che significa che possono essere integrati con altri software. Alcuni possono anche essere scaricati, consentendo ai ricercatori di costruire i propri modelli personalizzati.
Sebbene gli LLM producano risposte simili all’uomo, rimangono tutti troppo soggetti a errori per essere utilizzati da soli, afferma Carrie Wright, un data scientist presso il Fred Hutchinson Cancer Center, con sede a Seattle, Washington.
Quindi quale LLM è meglio per quale compito? Qui, i ricercatori condividono i loro attuali preferiti Natura Per aiutare a guidare i bisognosi.
O3-Mini (il ragionatore)
Openi, con sede a San Francisco, in California, ha introdotto il mondo a LLMS nel 2022 con il suo bot chatgpt gratuito. Gli scienziati hanno usato principalmente il bot per cercare informazioni o come assistente alla scrittura, ad esempio per redigere abstract, ma i modelli più recenti stanno ampliando i potenziali usi della tecnologia. Lo scorso settembre, nell’avanzamento più significativo dell’azienda da allora, Openai ha entusiasmato gli scienziati con il suo “modello di ragionamento” di O1, che ha seguito con l’O3 più avanzato a dicembre. Entrambi i modelli di ragionamento funzionano più lentamente di un solo LLM, perché sono stati addestrati per rispondere alle domande in modo passo-passo. Questo processo di “catena di pensieri”, mirato a simulare il ragionamento umano, li ha aiutati a distruggere i difficili parametri di riferimento nella scienza e nella matematica. Li ha anche resi bravi in compiti tecnici, come la risoluzione di problemi di codifica e i dati di riformattazione.
Dopo che la start-up cinese poco conosciuta Deepseek di Hangzhou ha lanciato un ragionatore rivale il 20 gennaio, Openai ha risposto con una serie di nuovi strumenti. Questi includono un rapido O3-Mini-un ragioniere gratuito per gli utenti di chatbot registrati-e “ricerca profonda”, che consente ad alcuni abbonati paganti di creare rapporti che sintetizzano le informazioni, con citazioni, da centinaia di siti Web, simile a quello di svolgere una letteratura revisione. I modelli eccellono quando usati in combinazione, afferma Andrew White, un esperto di chimico e AI presso Futurehouse, una start-up a San Francisco.
Quando si tratta di compiti come la raccolta di concetti sconosciuti in una nuova prova matematica, O3-Mini fa un “ottimo lavoro”, afferma Simon Frieder, matematico e ricercatore di intelligenza artificiale presso l’Università di Oxford, nel Regno Unito. Ma anche i migliori modelli “non sono ancora vicini alla competizione di un matematico”, afferma.
DeepSeek (The All-Rounder)
DeepSeek-R1, lanciato il mese scorso, ha abilità alla pari con O1, ma è disponibile tramite un’API a una frazione del costo. Si distingue anche dai modelli di Openi perché è di peso aperto, il che significa che sebbene i suoi dati di allenamento non siano stati rilasciati, chiunque può scaricare il modello sottostante e adattarlo al loro specifico progetto di ricerca. R1 ha “appena sbloccato un nuovo paradigma” in cui le comunità, in particolare quelle con relativamente poche risorse, possono costruire modelli di ragionamento specializzati, afferma White.
L’esecuzione del modello completo richiede l’accesso a potenti chip di calcolo, che mancano a molti accademici. Ma ricercatori come Benyou Wang, un informatico dell’Università cinese di Hong Kong, Shenzhen, stanno creando versioni che possono funzionare o allenarsi su una sola macchina. Come O1, il forte di DeepSeek-R1 è problemi di matematica e codice di scrittura. Ma è anche bravo in compiti come la generazione di ipotesi, afferma White. Questo perché DeepSeek ha optato per pubblicare per intero i “processi di pensiero” del modello, il che consente ai ricercatori di perfezionare meglio le loro domande di follow-up e, in definitiva, migliorare i suoi risultati, afferma. Tale trasparenza potrebbe anche essere estremamente potente per la diagnostica medica. Wang sta adattando R1 in esperimenti che utilizzano i poteri simili a ragionamenti del modello per costruire “un percorso chiaro e logico dalla valutazione dei pazienti alla diagnosi e alle raccomandazioni del trattamento”, afferma.
DeepSeek-R1 ha alcuni contro. Il modello sembra avere un processo di “pensiero” particolarmente lungo, che lo rallenta e lo rende meno utile per cercare informazioni o brainstorming. Le preoccupazioni per la sicurezza dell’input di dati nella sua API e Chatbot hanno portato diversi governi a vietare i lavoratori delle agenzie nazionali di utilizzare il chatbot. DeepSeek sembra anche aver preso meno misure per mitigare i suoi modelli dalla generazione di risultati dannosi rispetto ai suoi concorrenti commerciali. L’aggiunta di filtri per prevenire tali output – istruzioni per fare armi, ad esempio, richiede tempo e fatica. Sebbene sia improbabile che ciò sia stato fatto di proposito, “la mancanza di binari di guardia è preoccupante”, afferma Simon.
Openai ha anche suggerito che DeepSeek potrebbe aver “distillato in modo inappropriato” i suoi modelli, riferendosi a un metodo per addestrare un modello sugli output di un altro algoritmo, che vietano le condizioni d’uso di Openi.
Non è stato possibile raggiungere DeepSeek per un commento su queste critiche prima che questo articolo fosse pubblicato.
Alcuni ricercatori vedono una tale distillazione come un luogo comune e sono felici di usare R1, ma altri sono diffidenti nell’uso di uno strumento che potrebbe essere soggetto a contenziosi futuri. C’è la possibilità che gli scienziati che usano R1 possano essere costretti a ritirare documenti, se l’utilizzo del modello sia stata considerata una violazione degli standard etici della rivista, afferma Ana Catarina de Alencar, un avvocato presso l’EIT Manufacturing a Parigi, specializzato in diritto dell’IA. Una situazione simile potrebbe applicarsi all’uso di modelli da parte di Openai e altre aziende accusate di violazioni della proprietà intellettuale, afferma De Alencar. Le organizzazioni di notizie affermano che le aziende hanno utilizzato contenuti giornalistici per addestrare i loro modelli senza permesso.
Llama (il cavallo di battaglia)
Llama è stato a lungo un LLM preferito per la comunità di ricerca. Una famiglia di modelli a peso aperto per la prima volta pubblicati da Meta Ai a Menlo Park, in California, nel 2023, le versioni di Llama sono state scaricate più di 600 milioni di volte attraverso la piattaforma open-science che abbraccia la faccia da sola. Il fatto su cui può essere scaricato e basato è “probabilmente il motivo per cui Llama è stato abbracciato dalla comunità di ricerca”, afferma Elizabeth Humphries, data scientist presso il Fred Hutchinson Cancer Center.
Essere in grado di eseguire un LLM su server personali o istituzionali è essenziale quando si lavora con dati proprietari o protetti, per evitare che le informazioni sensibili vengano restituite ad altri utenti o agli sviluppatori, afferma Wright.
I ricercatori si sono basati sui modelli di Llama per creare LLM che prevedono la struttura cristallina dei materiali, nonché per simulare le uscite di un computer quantistico. Tianlong Chen, uno scienziato dell’apprendimento di macchine presso l’Università della Carolina del Nord a Chapel Hill, afferma che Llama era adatto a simulare un computer quantistico perché era relativamente facile adattarlo per comprendere la lingua quantistica specializzata.
Ma Llama richiede agli utenti di richiedere l’autorizzazione per accedervi, che è un piccolo punto di attrito per alcuni, afferma White. Di conseguenza, altri modelli aperti come OLMO, sviluppati dall’Allen Institute for Artificial Intelligence a Seattle, o Qwen, costruiti dalla società cinese Alibaba Cloud, con sede a Hangzhou, sono ora spesso la prima scelta nella ricerca, aggiunge. Il modello V3 sottostante efficiente di DeepSeek è anche una base rivale per la costruzione di modelli scientifici.