L’ultimo sistema di intelligenza artificiale (AI) di OpenAI è uscito a settembre con una promessa coraggiosa. La società dietro il chatbot ChatGPT ha presentato o1 – la sua ultima suite di modelli linguistici di grandi dimensioni (LLM) – come dotato di un “nuovo livello di capacità di intelligenza artificiale”. OpenAI, che ha sede a San Francisco, in California, afferma che o1 funziona in un modo più vicino al modo in cui una persona pensa rispetto ai precedenti LLM.
Il comunicato ha gettato nuova benzina su un dibattito che covava da decenni: quanto tempo passerà prima che una macchina sia in grado di svolgere l’intera gamma di compiti cognitivi che il cervello umano è in grado di gestire, compresa la generalizzazione da un compito all’altro, il ragionamento astratto, la pianificazione? e scegliere quali aspetti del mondo indagare e da cui imparare?
I chatbot IA più grandi sono più inclini a dire sciocchezze e le persone non sempre se ne rendono conto
Una tale “intelligenza generale artificiale”, o AGI, potrebbe affrontare problemi spinosi, tra cui il cambiamento climatico, le pandemie e le cure per il cancro, l’Alzheimer e altre malattie. Ma un potere così enorme porterebbe anche incertezza e porrebbe rischi per l’umanità. “Potrebbero accadere cose brutte a causa di un uso improprio dell’intelligenza artificiale o perché ne perdiamo il controllo”, afferma Yoshua Bengio, ricercatore di deep learning presso l’Università di Montreal, Canada.
La rivoluzione nei LLM negli ultimi anni ha spinto a ipotizzare che l’AGI potrebbe essere allettantemente vicino. Ma dato il modo in cui gli LLM vengono costruiti e formati, non saranno sufficienti per raggiungere l’AGI da soli, dicono alcuni ricercatori. “Mancano ancora alcuni pezzi”, dice Bengio.
Ciò che è chiaro è che le domande sull’AGI sono ora più rilevanti che mai. “Per gran parte della mia vita, ho pensato che le persone che parlavano di AGI fossero dei pazzi”, afferma Subbarao Kambhampati, informatico presso l’Arizona State University di Tempe. “Ora, ovviamente, ne parlano tutti. Non si può dire che tutti siano dei pazzi.”
Perché il dibattito sull’AGI è cambiato
L’espressione intelligenza generale artificiale è entrata nello spirito del tempo intorno al 2007 dopo essere stata menzionata in un libro dal titolo omonimo, curato dai ricercatori sull’intelligenza artificiale Ben Goertzel e Cassio Pennachin. Il suo significato preciso rimane sfuggente, ma si riferisce in generale a un sistema di intelligenza artificiale con capacità di ragionamento e generalizzazione simili a quelle umane. Definizioni confuse a parte, per gran parte della storia dell’IA è stato chiaro che non abbiamo ancora raggiunto l’AGI. Prendi AlphaGo, il programma AI creato da Google DeepMind per giocare al gioco da tavolo Go. Batte i migliori giocatori umani del mondo nel gioco, ma le sue qualità sovrumane sono limitate, perché è tutto ciò che può fare.
Le nuove funzionalità degli LLM hanno cambiato radicalmente il panorama. Come il cervello umano, gli LLM hanno una vasta gamma di capacità che hanno indotto alcuni ricercatori a considerare seriamente l’idea che una qualche forma di AGI potrebbe essere imminente1o addirittura già qui.
Questa ampiezza di capacità è particolarmente sorprendente se si considera che i ricercatori comprendono solo parzialmente il modo in cui i LLM raggiungono questo obiettivo. Un LLM è una rete neurale, un modello di apprendimento automatico vagamente ispirato al cervello; la rete è costituita da neuroni artificiali, o unità di calcolo, disposti in strati, con parametri regolabili che denotano la forza delle connessioni tra i neuroni. Durante l’addestramento, i LLM più potenti, come o1, Claude (costruito da Anthropic a San Francisco) e Gemini di Google, si basano su un metodo chiamato previsione del token successivo, in cui a un modello vengono ripetutamente forniti campioni di testo che è stato suddiviso in pezzi noti come token. Questi token potrebbero essere parole intere o semplicemente un insieme di caratteri. L’ultimo token di una sequenza viene nascosto o “mascherato” e al modello viene chiesto di prevederlo. L’algoritmo di training confronta quindi la previsione con il token mascherato e regola i parametri del modello per consentirgli di fare una previsione migliore la prossima volta.
Come l’intelligenza artificiale sta rimodellando la scienza e la società
Il processo continua – in genere utilizzando miliardi di frammenti di linguaggio, testo scientifico e codice di programmazione – finché il modello non riesce a prevedere in modo affidabile i token mascherati. A questo punto, i parametri del modello hanno catturato la struttura statistica dei dati di addestramento e la conoscenza in essi contenuta. I parametri vengono quindi fissati e il modello li utilizza per prevedere nuovi token quando vengono fornite nuove query o “prompt” che non erano necessariamente presenti nei dati di addestramento, un processo noto come inferenza.
L’uso di un tipo di architettura di rete neurale nota come trasformatore ha portato gli LLM significativamente oltre i risultati precedenti. Il trasformatore consente a un modello di apprendere che alcuni token hanno un’influenza particolarmente forte su altri, anche se sono ampiamente separati in un campione di testo. Ciò consente agli LLM di analizzare il linguaggio in modi che sembrano imitare il modo in cui lo fanno gli esseri umani, ad esempio distinguendo tra i due significati della parola “banca” in questa frase: “Quando la riva del fiume si allagò, l’acqua danneggiò il bancomat della banca, rendendolo è impossibile prelevare denaro.”
Questo approccio si è rivelato di grande successo in un’ampia gamma di contesti, inclusa la generazione di programmi informatici per risolvere problemi descritti in linguaggio naturale, il riassunto di articoli accademici e la risposta a domande di matematica.
E altre nuove funzionalità sono emerse lungo il percorso, soprattutto perché i LLM sono aumentati di dimensioni, aumentando la possibilità che anche l’AGI possa semplicemente emergere se i LLM diventano abbastanza grandi. Un esempio è il suggerimento della catena di pensiero (CoT). Ciò implica mostrare a un LLM un esempio di come suddividere un problema in passaggi più piccoli per risolverlo o semplicemente chiedere al LLM di risolvere un problema passo dopo passo. I suggerimenti CoT possono portare i LLM a rispondere correttamente alle domande che in precedenza li sconcertavano. Ma il processo non funziona molto bene con i piccoli LLM.
I limiti degli LLM
Secondo OpenAI, i suggerimenti CoT sono stati integrati nel funzionamento di o1 e sono alla base dell’abilità del modello. Francois Chollet, ricercatore di intelligenza artificiale presso Google a Mountain View, California, che ha lasciato a novembre per avviare una nuova società, ritiene che il modello incorpori un generatore CoT che crea numerosi prompt CoT per una query dell’utente e un meccanismo per selezionare un buon spunto dalle scelte. Durante l’addestramento, a o1 viene insegnato non solo a prevedere il token successivo, ma anche a selezionare il miglior prompt CoT per una determinata query. L’aggiunta del ragionamento CoT spiega perché, ad esempio, o1-preview – la versione avanzata di o1 – ha risolto correttamente l’83% dei problemi in un esame di qualificazione per le Olimpiadi Internazionali della Matematica, una prestigiosa competizione di matematica per studenti delle scuole superiori, secondo OpenAI . Ciò si confronta con un punteggio di appena il 13% per il precedente LLM più potente dell’azienda, GPT-4o.
Nell’intelligenza artificiale, più grande è sempre meglio?
Ma, nonostante tale sofisticatezza, o1 ha i suoi limiti e non costituisce l’AGI, affermano Kambhampati e Chollet. Sui compiti che richiedono pianificazione, ad esempio, il team di Kambhampati ha dimostrato che, sebbene o1 si comporti egregiamente su compiti che richiedono fino a 16 passaggi di pianificazione, le sue prestazioni peggiorano rapidamente quando il numero di passaggi aumenta tra 20 e 40.2. Chollet ha riscontrato limitazioni simili quando ha sfidato o1-preview con un test di ragionamento astratto e generalizzazione da lui progettato per misurare i progressi verso l’AGI. Il test assume la forma di puzzle visivi. Per risolverli è necessario guardare esempi per dedurre una regola astratta e usarla per risolvere nuovi casi di un puzzle simile, qualcosa che gli esseri umani fanno con relativa facilità.
Gli LLM, afferma Chollet, indipendentemente dalle loro dimensioni, sono limitati nella loro capacità di risolvere problemi che richiedono la ricombinazione di ciò che hanno imparato per affrontare nuovi compiti. “I LLM non possono veramente adattarsi alla novità perché non hanno la capacità di prendere fondamentalmente la loro conoscenza e poi fare una ricombinazione abbastanza sofisticata di quella conoscenza al volo per adattarsi al nuovo contesto.”
Gli LLM possono fornire AGI?
Quindi, i LLM forniranno mai AGI? Un punto a loro favore è che l’architettura sottostante del trasformatore può elaborare e trovare modelli statistici in altri tipi di informazioni oltre al testo, come immagini e audio, a condizione che esista un modo per tokenizzare adeguatamente tali dati. Andrew Wilson, che studia l’apprendimento automatico alla New York University di New York City, e i suoi colleghi hanno dimostrato che ciò potrebbe essere dovuto al fatto che i diversi tipi di dati condividono tutti una caratteristica: tali set di dati hanno una bassa “complessità di Kolmogorov”, definita come la lunghezza di il programma per computer più breve necessario per crearli3. I ricercatori hanno anche dimostrato che i trasformatori sono particolarmente adatti per apprendere modelli di dati con bassa complessità di Kolmogorov e che questa idoneità cresce con la dimensione del modello. I trasformatori hanno la capacità di modellare un’ampia gamma di possibilità, aumentando la possibilità che l’algoritmo di addestramento scopra una soluzione adeguata a un problema, e questa “espressività” aumenta con le dimensioni. Questi sono, dice Wilson, “alcuni degli ingredienti di cui abbiamo veramente bisogno per l’apprendimento universale”. Sebbene Wilson pensi che l’AGI sia attualmente fuori portata, afferma che gli LLM e altri sistemi di intelligenza artificiale che utilizzano l’architettura del trasformatore hanno alcune delle proprietà chiave del comportamento simile all’AGI.
L’intelligenza artificiale può esaminare la letteratura scientifica e capirne il significato?
Tuttavia ci sono anche segnali che i LLM basati sui trasformatori presentano dei limiti. Tanto per cominciare, i dati utilizzati per addestrare i modelli si stanno esaurendo. Lo stimano i ricercatori di Epoch AI, un istituto di San Francisco che studia le tendenze dell’intelligenza artificiale4 che lo stock esistente di dati testuali disponibili al pubblico utilizzati per la formazione potrebbe esaurirsi tra il 2026 e il 2032. Ci sono anche segnali che i guadagni ottenuti dai LLM man mano che diventano più grandi non sono così grandi come lo erano una volta, anche se non è chiaro se questo è legato al fatto che ci sono meno novità nei dati perché ora ne sono stati utilizzati così tanti, o qualcos’altro. Quest’ultimo sarebbe di cattivo auspicio per gli LLM.
Raia Hadsell, vicepresidente della ricerca presso Google DeepMind a Londra, solleva un altro problema. I potenti LLM basati sui trasformatori sono addestrati a prevedere il token successivo, ma questo focus unico, sostiene, è troppo limitato per fornire l’AGI. Costruire modelli che invece generano soluzioni tutte insieme o in grandi blocchi potrebbe avvicinarci all’AGI, dice. Gli algoritmi che potrebbero aiutare a costruire tali modelli sono già al lavoro in alcuni sistemi esistenti non LLM, come DALL-E di OpenAI, che genera immagini realistiche, a volte stravaganti, in risposta a descrizioni in linguaggio naturale. Ma mancano dell’ampia gamma di capacità dei LLM.
Costruiscimi un modello mondiale
L’intuizione di quali scoperte siano necessarie per progredire verso l’AGI viene dai neuroscienziati. Sostengono che la nostra intelligenza è il risultato della capacità del cervello di costruire un “modello del mondo”, una rappresentazione di ciò che ci circonda. Questo può essere utilizzato per immaginare diverse linee d’azione e prevederne le conseguenze, e quindi per pianificare e ragionare. Può anche essere utilizzato per generalizzare le competenze apprese in un ambito a nuovi compiti simulando diversi scenari.