Si chiama AlphaFold Protein Structure Database la nuova banca dati che contiene tra le altre informazioni relative a circa 20 mila diverse proteine espresse dal genoma umano. L’iniziativa nasce della collaborazione tra il Laboratorio Europeo di Biologia Molecolare (EMBL), una delle principali realtà europee nel campo delle scienze della vita, e DeepMind, azienda specializzata nel sviluppo di soluzioni di intelligenza artificiale (IA). 

Il lancio del database, a fine luglio, è stato accompagnato da vari articoli pubblicati su Nature e sul sito di DeepMind, che descrivono rispettivamente il metodo utilizzato per arrivare a predire la struttura 3D delle proteine, le modalità per le previsioni a livello di proteoma umano e le note degli autori. “Abbiamo usato AlphaFold per generare il quadro più completo e accurato possibile del proteoma umano. Crediamo che questo rappresenti il contributo più significativo che l’IA abbia dato al progresso della conoscenza scientifica fino ad oggi, ed è un grande esempio dei benefici che l’IA può portare alla società“, ha commentato il fondatore e CEO di DeepMind Demis Hassabis.

Predire il folding proteico

Uno dei principali vantaggi portati da AlphaFold riguarda la previsione del ripiegamento delle proteine nella loro struttura terziaria, il cosiddetto folding, aspetto che ha ricevuto un riconoscimento anche da parte degli organizzatori dell’iniziativa “Critical Assessment of protein Structure Prediction (CASP)”, a dicembre 2020. 

Le potenzialità di AlphaFold sono state già testate da parte di alcuni early-partners, tra cui la Drugs for Neglected Diseases Initiative (DNDi) e il Centre for Enzyme Innovation (CEI). Il database è ora accessibile in modo libero e gratuito a tutti, con l’obiettivo di contribuire a un più rapido progresso in molti campi della ricerca nelle scienze della vita. Grazie agli algoritmi di intelligenza atificiale, infatti, gli sviluppatori di AlphaFold hanno puntato a rendere possibile predire la struttura tridimensionale di una proteina sulla base della sua sequenza amminoacidica primaria, evitando di dover ricorrere in modo esteso alle lunghe e spesso costose tecniche di analisi strutturale. “Il database AlphaFold è un perfetto esempio del circolo virtuoso alimentato dalla scienza aperta“, ha sottolineato la direttrice generale dell’EMBL Edith Heard. “AlphaFold è stato istruito usando dati provenienti da basi di dati pubbliche costruite dalla comunità scientifica, quindi ha senso che anche  le sue previsioni siano pubbliche“.

Oltre al proteoma umano, il database da poco lanciato contiene anche circa 350 mila altre strutture proteiche, tra cui quelle di venti organismi biologicamente significativi come il batterio E.coli, il moscerino della frutta, il topo, zebrafish, il parassita della malaria e i batteri responsabili della tubercolosi. La previsione per il futuro è di espandere ulteriormente la banca dati, fino a includere quasi tutte le oltre 100 milioni di strutture proteiche note, che coprono la maggior parte del database di riferimento UniProt.

La sensazione è che si stiano aprendo orizzonti finora impensabili, che ci permetteranno di migliorare ulteriormente la nostra qualità di vita, ad esempio progredendo nello sviluppo di nuovi farmaci, controllando meglio la proliferazione degli agenti patogeni, e in generale sfruttando meglio le risorse del pianeta.”, ha commentato Marco Marcia, PhD, Capo di Laboratorio all’EMBL Grenoble.