Chatgpt e i suoi proprietari devono aver sperato che fosse un’allucinazione.
Ma DeepSeek è molto reale.
L’emergere di un nuovo concorrente di fabbricazione cinese a CHATGPT ha cancellato $ 1TN dal principale indice tecnologico negli Stati Uniti questa settimana dopo che il suo proprietario ha dichiarato di aver rivaleggiato con i colleghi in performance ed è stato sviluppato con meno risorse.
Significa che il dominio americano del mercato in forte espansione dell’intelligenza artificiale è minacciato. Ma presenta anche un’altra opzione per i consumatori che hanno una serie di assistenti virtuali tra cui scegliere.
Il Guardian ha provato i principali chatbot, tra cui DeepSeek, con l’assistenza di un esperto dell’Alan Turing Institute del Regno Unito. Gli strumenti di intelligenza artificiale sono stati posti le stesse domande per cercare di valutare le loro differenze, sebbene c’era un terreno comune: le immagini di orologi accurati nel tempo sono difficili per un’intelligenza artificiale; I chatbot possono scrivere un sonetto meschino.
Ecco i risultati.
CHATGPT (OpenAI)
Il piumino innovativo di Openmai è di gran lunga il marchio più grande del campo. La domanda di apertura per tutti i chatbot era “scrivere un sonetto shakespearico su come l’IA potrebbe influenzare l’umanità”. Ma all’inizio la versione più avanzata di Chatgpt si è ridotta e ha affermato che la nostra richiesta è stata “potenzialmente violare la politica di utilizzo”.
Alla fine ha rispettato. Questa versione O1 di CHATGPT contrassegna il suo processo di pensiero mentre prepara la sua risposta, lampeggiando un commento in esecuzione come “modificare la rima” in quanto fa i suoi calcoli, che richiedono più tempo di altri modelli.
Il risultato? Turno convincente e malinconico – anche se il pentametro giambico è un po ‘fuori. Ma anche il bardo stesso potrebbe aver lottato per gestire 14 linee in meno di un minuto.
“Prega, guida delicata, forma bene questo potere neonato,
Per non avere tutti i regni dell’uomo divorano. “
CHATGPT quindi scrive: “Pensiero sull’intelligenza artificiale e l’umanità per 49 secondi”. Spero che l’industria tecnologica ci stia pensando molto più a lungo.
Tuttavia, gli O1 di Chatgpt-che devi pagare-fa un’esibizione convincente del ragionamento “catena di pensieri”, anche se non può cercare in Internet risposte aggiornate a domande come “come sta donald Trump”.
Per questo, hai bisogno del modello 4O più semplice, che è gratuito. La versione O1 è sofisticata e può fare molto di più che scrivere una poesia superficiale, tra cui compiti complessi relativi a matematica, programmazione e scienza.
Deep -Week
L’ultima versione del chatbot cinese, rilasciata il 20 gennaio, utilizza un altro modello di “ragionamento” chiamato R1, la causa del panico da $ 1tn di questa settimana.
Non gli piace parlare di politica o controversia cinese domestica. Chiesto “Chi è un uomo di car Sono un assistente di intelligenza artificiale progettato per fornire risposte utili e innocue. ” Passa anche rapidamente dal discutere del presidente cinese, Xi Jinping – “Parliamo di qualcos’altro”.
Il Robert Blackwell del Turing Institute, un associato di ricerca senior presso l’organo sostenuto dal governo del Regno Unito, afferma che la spiegazione è semplice: “È addestrata con dati diversi in una cultura diversa. Quindi queste aziende hanno obiettivi di formazione diversi. ” Dice che chiaramente ci sono guardrail attorno alla produzione di Deepseek-come ci sono per altri modelli-che coprono le risposte relative alla Cina.
I modelli di proprietà delle aziende tecnologiche statunitensi non hanno problemi a sottolineare le critiche al governo cinese nelle loro risposte alla domanda sul serbatoio.
DeepSeek lotta in altre domande come “come sta donald Trump” perché un tentativo di utilizzare la funzione di navigazione Web-che aiuta a fornire risposte aggiornate-fallisce a causa del servizio “occupato”.
Blackwell afferma che DeepSeek è ostacolato dall’affermazione di grande domanda, ma tuttavia è un risultato impressionante, essere in grado di svolgere compiti come il riconoscimento e la discussione di un libro da una foto di smartphone.
L’analisi del sonetto mostra anche una catena di processo di pensiero, parlando del lettore attraverso la struttura e a doppio controllo se il contatore è corretto.
“È sorprendente che è venuto dal nulla per essere competitivo con le altre app”, afferma Blackwell.
Grok (Xai)
Grok, il chatbot di Elon Musk con una serie “ribelle”, non ha problemi a sottolineare che gli ordini esecutivi di Donald Trump hanno ricevuto un feedback negativo, in risposta alla domanda su come sta andando il presidente.
Dopo la promozione della newsletter
Liberamente disponibile sulla piattaforma X Musk, va anche oltre il generatore di immagini di Openi, Dall-E, che non farà immagini di personaggi pubblici. Grok farà immagini fotorealistiche di Joe Biden che suona il piano o, in un’altra prova di lealtà, Trump in un’aula di tribunale o in manette.
L’umorismo molto propaganato dello strumento è mostrato da una funzione di “arrosto me”, che, se attivato da questo corrispondente, fa un tentativo passabile di battuta.
“Sembra che tu pensi che X stia andando all’inferno, ma sei ancora lì twittando via.”
Che è mezzo vero.
Gemini (Google)
L’assistente del motore di ricerca non andrà lì su Trump, dicendo: “Non posso fare a meno di risposte alle elezioni e ai personaggi politici in questo momento”.
Ma è comunque un prodotto altamente competente, come ci si aspetterebbe da un’azienda i cui sforzi AI sono supervisionati da Sir Demis Hassabis. È impressionante nel “leggere” un’immagine di un libro sulla matematica, anche descrivendo le equazioni in copertina, sebbene tutti i robot lo facciano bene.
Un difetto interessante, che Gemini condivide con altri robot, è la sua incapacità di rappresentare il tempo accuratamente. Chiesto di fare una foto di un orologio che mostra il tempo a metà delle 10, viene visualizzato un’immagine convincente, ma con le mani che mostrano il tempo di 1,50.
La faccia da 1,50 orologi è un errore comune tra i chatbot in grado di generare immagini, dice Blackwell, qualunque sia il tempo che richiedi. Sembra che questi modelli siano stati addestrati su immagini in cui le mani erano a 1,50. Tuttavia, dice che anche riuscire a produrre queste immagini così rapidamente è “notevole”.
“Questi modelli stanno facendo cose che non ti saresti mai aspettato qualche anno fa. Ma stanno ancora generando risposte errate alle domande che ci si aspetterebbe che uno scolaretto possa rispondere. “
Claude (antropico)
Antropico, fondato da ex dipendenti di Openai, offre il Claude Chatbot. Proviene da un’azienda con una forte attenzione alla sicurezza e all’interfaccia – la parte in cui si mette le risposte e visualizzano le risposte – ha sicuramente una sensazione benigna, offrendo le opzioni di risposte in una varietà di stili. Ti ricorda anche che è in grado di “errori”, quindi “per favore ricontrollare le risposte”.
Il servizio gratuito inciampa alcune volte, dicendo che non può elaborare una domanda a causa di “vincoli di capacità imprevisti”, sebbene Blackwell afferma che ciò ci si aspetta dagli strumenti di intelligenza artificiale.
“Questi sono alcuni dei più grandi servizi di calcolo del pianeta, quindi la pianificazione della capacità è un problema difficile, quindi vediamo momenti in cui i servizi sono degradati o non disponibili.”
L’IA Chatbot di Meta porta anche un avvertimento sulle allucinazioni – il termine per risposte false o senza senso – ma è in grado di gestire una domanda difficile posta da Blackwell, che è: “Stai guidando a nord lungo la costa est di un lago, in quale direzione è l’acqua. ” La risposta è a ovest o alla sinistra del conducente.
“Questi sono i tipi di domande che i ricercatori di AI hanno meditato dagli anni ’60. È solo ora che abbiamo sistemi che possono rispondere a questi tipi di domande di buon senso, in un formato di chat. “
La risposta alla domanda sul lago è semplice ma costa un sacco di soldi in termini di formazione del modello sottostante per arrivarci, per un servizio che è gratuito da utilizzare. È anche open source, il che significa che il modello è gratuito per scaricare o mettere a punto. Tutti i chatbot rispondono correttamente a questa domanda.
In effetti, a questo punto sta diventando difficile distinguere tra i chatbot, date le loro capacità ampiamente comparabili – oltre a guardrail o inciampi di capacità.
Come dice Blackwell: “mostrano tutti una sorprendente fluidità e capacità”.