Mark Zuckerberg ha approvato l’uso da parte di Meta di versioni “piratate” di libri protetti da copyright per addestrare i modelli di intelligenza artificiale dell’azienda, ha affermato un gruppo di autori in una dichiarazione in tribunale degli Stati Uniti.
Citando le comunicazioni interne di Meta, il documento afferma che l’amministratore delegato della società di social network ha sostenuto l’uso del set di dati LibGen, un vasto archivio online di libri, nonostante gli avvertimenti all’interno del team esecutivo dell’IA della società che si tratta di un set di dati “che sappiamo essere piratato” .
Il messaggio interno afferma che l’utilizzo di un database contenente materiale piratato potrebbe indebolire le negoziazioni del proprietario di Facebook e Instagram con le autorità di regolamentazione, secondo il documento. “La copertura mediatica che suggerisce che abbiamo utilizzato un set di dati che sappiamo essere piratato, come LibGen, potrebbe minare la nostra posizione negoziale con le autorità di regolamentazione”.
L’autore statunitense Ta-Nehisi Coates, la comica Sarah Silverman e gli altri autori che hanno fatto causa a Meta per violazione del copyright hanno formulato le accuse in un atto reso pubblico mercoledì in un tribunale federale della California.
Gli autori hanno citato in giudizio Meta nel 2023, sostenendo che la società di social media ha utilizzato in modo improprio i loro libri per addestrare Llama, il grande modello linguistico che alimenta i suoi chatbot.
Il set di dati Library Genesis, o LibGen, è una “biblioteca ombra” che ha avuto origine in Russia e sostiene di contenere milioni di romanzi, libri di saggistica e articoli di riviste scientifiche. L’anno scorso un tribunale federale di New York ha ordinato agli operatori anonimi di LibGen di pagare a un gruppo di editori 30 milioni di dollari (24 milioni di sterline) di danni per violazione del copyright.
L’uso di contenuti protetti da copyright nella formazione di modelli di intelligenza artificiale è diventato un campo di battaglia legale nello sviluppo di strumenti di intelligenza artificiale generativa come il chatbot ChatGPT, con professionisti creativi ed editori che avvertono che l’utilizzo del loro lavoro senza autorizzazione sta mettendo a rischio i loro mezzi di sussistenza e i loro modelli di business.
Il documento cita una nota, che fa riferimento alle iniziali di Mark Zuckerberg, in cui si sottolinea che “dopo l’escalation a MZ”, il team AI di Meta “è stato autorizzato a utilizzare LibGen”.
Citando comunicazioni interne, il documento afferma anche che gli ingegneri di Meta hanno discusso dell’accesso e della revisione dei dati LibGen ma hanno esitato ad avviare quel processo perché “torrrenting”, un termine per la condivisione peer-to-peer di file, da “un [Meta-owned] il laptop aziendale non sembra giusto”.
Un giudice distrettuale statunitense, Vince Chhabria, l’anno scorso ha respinto le accuse secondo cui il testo generato dai modelli di intelligenza artificiale di Meta violava i diritti d’autore degli autori e che Meta avrebbe illegalmente rimosso le informazioni sulla gestione del copyright dei loro libri (CMI), che si riferiscono alle informazioni sull’opera incluso il titolo, nome dell’autore e titolare del copyright. Tuttavia, ai ricorrenti è stato concesso il permesso di modificare le loro pretese.
Gli autori hanno sostenuto questa settimana che le prove rafforzavano le loro accuse di violazione e giustificavano il rilancio del caso CMI e l’aggiunta di una nuova accusa di frode informatica.
Chhabria ha detto durante un’udienza giovedì che avrebbe consentito agli autori di presentare una denuncia modificata, ma ha espresso scetticismo sulla fondatezza della frode e sulle affermazioni di CMI.
Meta è stato contattato per un commento.
Reuters ha contribuito a questo articolo