Ex-metacientíficos lanzaron un gigantesco modelo de diseño de proteínas con IA

Ex-metacientíficos lanzaron un gigantesco modelo de diseño de proteínas con IA

Modelado molecular de la proteína fluorescente verde brillante StayGold de Cytaeis uchidae.

Modelo Estructural de Proteína Verde Fluorescente, Taller de Biotecnología.Crédito: Laguna Design/Biblioteca de fotografías científicas

Se ha utilizado un modelo de inteligencia artificial (IA) que habla el lenguaje de las proteínas, el más grande desarrollado hasta ahora para la biología, para crear nuevas moléculas fluorescentes.

Este mes se anunció una demostración de prueba de principio de Evolutionary Scale en la ciudad de Nueva York, junto con 142 millones de dólares en nuevos fondos para aplicar su modelo al desarrollo de fármacos, la sostenibilidad y otros descubrimientos. La empresa, fundada por científicos que anteriormente trabajaron en el gigante tecnológico Meta, es la última entrada en un campo cada vez más poblado, que aplica sofisticados modelos de aprendizaje automático entrenados en lenguaje e imágenes a datos biológicos.

«Queremos crear herramientas que hagan que la biología sea programable», dice Alex Rives, científico jefe de la compañía, que ha sido parte de los esfuerzos de Meta para aplicar la IA a los datos biológicos.

Una herramienta de IA de escala evolutiva se llama ESM3, que significa Protein Language Model. Fue entrenado en más de 2.700 millones de secuencias y estructuras de proteínas e información sobre las funciones de estas proteínas. El modelo se puede utilizar para generar proteínas según las especificaciones proporcionadas por el usuario, similar al texto escupido por chatbots como ChatGPT.

«Éste es uno de los paradigmas de la IA en biología al que todo el mundo presta atención», afirma Anthony Gitter, biólogo computacional de la Universidad de Wisconsin-Madison.

Brillante

Rives y sus colegas trabajaron en iteraciones anteriores del modelo ESM en Meta, pero se lanzaron por su cuenta el año pasado después de que Meta terminara su trabajo en el área. Anteriormente utilizaron el modelo ESM-2 para crear una base de datos disponible gratuitamente de más de 600 millones de estructuras de proteínas.1. Otros equipos han utilizado versiones de ESM-1 para diseñar anticuerpos con actividad mejorada contra patógenos, incluido el SARS-CoV-2.2 y rediseñar proteínas ‘anti-CRISPR’ para mejorar la eficiencia de las herramientas de edición de genes3.

Este año, Profluent, otra empresa de inteligencia artificial biológica en Berkeley, California, utilizó su propio modelo de lenguaje de proteínas para crear nuevas proteínas de edición de genes inducidas por CRISPR y puso una de esas moléculas a disposición de su uso de forma gratuita.

Para demostrar su último modelo, el equipo de Rives se propuso examinar otro caballo de batalla de la biotecnología: la proteína verde fluorescente (GFP), que absorbe la luz azul y brilla en verde. Los investigadores aislaron GFP de medusas bioluminiscentes en la década de 1960 Igual victoria. El trabajo posterior, junto con el descubrimiento, reconocido con el Premio Nobel, mostró cómo GFP podía marcar otras proteínas observadas bajo el microscopio, explicó la base molecular de su fluorescencia y desarrolló versiones sintéticas de la proteína que brillaban más intensamente y de manera diferente. Colores.

Los investigadores identificaron otras proteínas fluorescentes con una forma similar, todas las cuales comparten un núcleo «cromóforo» emisor y absorbente de luz rodeado por un andamio en forma de barril. El equipo de Rives pidió a ESM3 que creara ejemplos de proteínas similares a GFP que contengan un grupo de aminoácidos clave que se encuentran en el cromóforo de GFP.

Los investigadores sintetizaron 88 de los diseños más prometedores y midieron la intensidad de la fluorescencia. La mayoría eran manchas, pero una brillaba débilmente, similar a las proteínas fluorescentes conocidas, aproximadamente 50 veces más débiles que las formas naturales de GFP. Utilizando la secuencia de esta molécula como punto de partida, los investigadores asignaron ESM3 para mejorar su trabajo. Cuando los investigadores hicieron alrededor de 100 diseños del resultado, varios eran tan brillantes como la GFP natural, que sigue siendo mucho más tenue que las variantes diseñadas en laboratorio.

Se predice que una de las proteínas más brillantes diseñadas con ESM3, llamada esmGFP, tendrá una estructura similar a la de las proteínas fluorescentes naturales. Sin embargo, su secuencia de aminoácidos es muy diferente y coincide con menos del 60% de la secuencia de la proteína fluorescente más estrechamente relacionada en su conjunto de datos de entrenamiento. En preimpresión publicada en el servidor bioRxiv4Rives y sus colegas dicen que, basándose en las tasas de mutación naturales, este nivel de divergencia de secuencia equivale a «500 millones de años de evolución».

Pero a Gitter le preocupa que esta comparación sea una forma inútil y potencialmente engañosa de describir el producto de un modelo de IA sofisticado. «Da miedo cuando se piensa en la evolución de la IA y la aceleración», afirma. «Creo que exagerar el trabajo del modelaje es perjudicial para el campo y peligroso para el público».

Rives ve las nuevas proteínas de ESM3 a medida que se replican a través de diferentes secuencias, de forma análoga a la evolución. «Creemos que es interesante observar qué se necesita para que la naturaleza produzca algo como esto», añade.

Limitación de riesgo

ESM3 es uno de los primeros modelos biológicos de IA que utiliza suficiente potencia informática durante el entrenamiento para informar al gobierno de EE. UU. en virtud de una orden ejecutiva presidencial de 2023 y exigir a los desarrolladores que informen sobre las medidas de mitigación de riesgos. Evolutionary Scale dice que ya está en contacto con la Oficina de Política Científica y Tecnológica de Estados Unidos.

La versión ESM3, que contiene alrededor de 100 mil millones de parámetros (o variables utilizadas por el modelo para representar relaciones entre secuencias), excede ese límite y no está disponible públicamente. Para la versión más corta de código abierto, algunas secuencias, como los virus y la lista de patógenos y toxinas preocupantes del gobierno de EE. UU., se excluyeron del entrenamiento. No se puede inducir a ESM3-Open, que los científicos pueden descargar en cualquier lugar y ejecutar de forma independiente, para que produzca tales proteínas.

Martin Pacesa, biólogo estructural del Instituto Federal Suizo de Tecnología en Lausana, está entusiasmado de trabajar con ESM3. Señala que es uno de los primeros modelos biológicos que permite a los investigadores especificar diseños utilizando descripciones en lenguaje natural de sus propiedades y funciones, y está entusiasmado de ver cómo funcionan esta y otras características en la práctica.

Evolutionary Scale lanzó una versión de código abierto de ESM3 y Pacesa apreció la clara explicación de cómo se entrenó la versión grande. Pero el modelo más grande requeriría enormes recursos informáticos para desarrollarse de forma independiente, afirma. «Ningún laboratorio académico podrá replicar eso».

Rives está entusiasmado de aplicar ESM3 a otros diseños. Pacesa, que formó parte de un equipo que utilizó un modelo de lenguaje proteico diferente para producir nuevas proteínas CRISPR, dice que será interesante ver cómo ESM3 hace esto. Rives imagina aplicaciones en sostenibilidad (un video en el sitio web de la compañía muestra el diseño de enzimas que comen plástico) y en el desarrollo de anticuerpos y otros medicamentos basados ​​en proteínas. «Es realmente un modelo en la frontera», afirma.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *