Home Politica Il modello di biologia AI più grande di sempre scrive il DNA...

Il modello di biologia AI più grande di sempre scrive il DNA su richiesta

7
0

Micrografia elettronica a scansione colorata di cellule di Brewer's o Baker's, lievito (Saccharomyces cerevisiae).

I genomi di organismi eucariotici come il lievito sono stati usati per addestrare il modello EVO-2.Credito: Thomas Deerinck, NCMIR/Science Photo Library

Oggi gli scienziati hanno rilasciato quello che dicono è il modello di biologia per la biologia.

Il modello-che è stato addestrato su 128.000 genomi che attraversano l’albero della vita, dagli umani ai batteri a celle singole e agli archea-può scrivere cromosomi interi e piccoli genomi da zero. Può anche dare un senso al DNA esistente, comprese le varianti geniche “non codificanti” difficili da interpretare che sono legate alla malattia.

EVO-2, co-sviluppato dai ricercatori dell’Arc Institute di Palo Alto, in California, e il produttore di chip Nvidia, è disponibile per gli scienziati attraverso interfacce Web o possono scaricare il suo codice software disponibile liberamente, i dati e altri parametri necessari per replicare il modello .

Gli sviluppatori vedono Evo-2 come una piattaforma che altri possono adattarsi ai propri usi. “Non vediamo l’ora di come scienziati e ingegneri costruiscano questo” App store “per la biologia”, ha dichiarato Patrick Hsu, bioingegnere presso l’Arc Institute e l’Università della California, Berkeley, durante un briefing stampa che annuncia il lancio di EVO-2.

Altri scienziati sono colpiti da ciò che hanno letto sul modello, che è descritto in un documento pubblicato sul sito Web dell’Arc Institute e inviato al server preprint BioRXIV. Ma dicono che dovranno calciare le gomme prima di giungere a conclusioni ferme.

“Dovremo vedere come regge i benchmark indipendenti dopo che la preprint è uscita”, afferma Anshul Kundaje, genomicista computazionale alla Stanford University di Palo Alto. Finora è colpito dall’ingegneria che è alla base del modello.

Trilioni di lettere

Negli ultimi anni, i ricercatori hanno sviluppato “modelli di linguaggio proteico” sempre più potenti come il modello ESM-3 sviluppato da ex Meta Employes che, dopo aver addestrato milioni di sequenze proteiche, sono stati usati per aiutare a prevedere le strutture proteiche e progettare totalmente nuovi Proteine ​​tra cui redattori genici e molecole fluorescenti.

A differenza di questi modelli, EVO-2 è stato addestrato su dati del genoma che contiene entrambe le “sequenze di codifica”-che trasportano istruzioni per creare proteine-e DNA non codificante che include sequenze che possono controllare quando, dove e come i geni sono attivi. La prima versione di EVO pubblicata l’anno scorso è stata addestrata sui genomi di 80.000 batteri e archea – semplici organismi chiamati prokaryotes – così come i loro virus e altre sequenze.

L’ultimo modello si basa su 128.000 genomi, compresi quelli di umani e altri animali, piante e altri organismi eucariotici. Questi genomi comprendono un totale di 9,3 trilioni di lettere di DNA. Sulla base della potenza di calcolo necessaria per divorare questi dati e altre caratteristiche, EVO-2 è il più grande modello biologico di intelligenza artificiale ancora rilasciato, afferma HSU.

Sequenza animata da un video clip che mostra una dimostrazione dell'interfaccia Evo Designer in uso.

Credito: ARC Institute

Rispetto ai procarioti, i genomi eucariotici tendono ad essere più lunghi e complessi: i geni sono realizzati con segmenti intervallati di regioni di codifica e non codifica e il “DNA regolatorio” non codificante può essere lontano dai geni che controllano. Per gestire questa complessità, è stato costruito EVO-2 in modo da poter imparare modelli in sequenze di DNA fino a 1 milione di coppie di basi.

Per dimostrare la sua capacità di dare un senso a genomi complessi, HSU e i suoi colleghi hanno usato EVO-2 per prevedere gli effetti delle mutazioni precedentemente studiate in un gene implicati nel carcinoma mammario chiamato BRCA1. Ha fatto quasi i migliori modelli Bio-AI per determinare se le modifiche alle regioni di codifica avrebbero causato malattie, ha affermato HSU. “È stato dell’arte per mutazioni non codificanti.” In futuro, il modello potrebbe aiutare a identificare questi cambiamenti difficili da interpretare nei genomi dei pazienti.

I ricercatori hanno anche testato la capacità del modello di decifrare altre caratteristiche di genomi complessi, tra cui quello del mammut lanoso. “EVO-2 rappresenta un passo significativo nell’apprendimento della grammatica normativa del DNA”, afferma Christina Theodoris, una biologa computazionale dei Gladstone Institutes di San Francisco, in California.

Fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here