ChatGPT es nuevo, ya que genera texto adivinando la siguiente palabra en una secuencia Inteligencia artificial (IA) puede escribir nuevas proteínas desde cero que no se producen de forma natural.
Los científicos utilizaron un nuevo modelo, ESM3, para crear una nueva proteína fluorescente que comparte sólo el 58% de su secuencia con proteínas fluorescentes naturales, dijeron en un estudio publicado el 2 de julio en Preprint. base de datos bioRxiv. Representantes de la Escala Evolutiva, creada por antiguos metainvestigadores, explicaron los detalles el 25 de junio. declaración.
Publicado por el equipo de investigación. Una versión más pequeña del patrón. Una versión más grande del modelo está disponible para investigadores comerciales bajo una licencia no comercial. A escala evolutiva, la tecnología es útil en áreas que van desde el descubrimiento de fármacos hasta el diseño de nuevos productos químicos para la degradación del plástico.
ESM3 es un modelo de lenguaje grande (LLM) similar al GPT-4 de OpenAI, que impulsa el chatbot ChatGPT, y los científicos entrenaron su versión más grande con 2,78 mil millones de proteínas. Para cada proteína, extraen información sobre la secuencia (el orden de los componentes básicos de los aminoácidos que forman la proteína), la estructura (la forma tridimensional plegada de la proteína) y la función (lo que hace la proteína). Ocultaron aleatoriamente información sobre estas proteínas y le pidieron a ESM3 que adivinara las piezas faltantes.
Ampliaron este modelo a partir de una investigación realizada por el mismo equipo mientras estaban en Meta. En 2022 ellos EMSFold anunció – Precursor de ESM3 con estructuras previstas de proteínas microbianas desconocidas. Ese año, Alphabet Mente profunda incluso Se predicen las estructuras de las proteínas. por 200 millones de proteínas.
Relacionado: El programa de inteligencia artificial AlphaFold3 de DeepMind puede predecir la estructura de cada proteína del universo y mostrar cómo funcionan
Posteriormente, los científicos señalaron que existen Limitaciones a las predicciones de estos modelos de IA Y es necesario comprobar las predicciones de proteínas. Pero los métodos pueden acelerar aún más la búsqueda de estructuras proteicas, porque la alternativa es utilizar rayos X para mapear las estructuras proteicas una por una, lo cual es lento y costoso.
Sin embargo, ESM3 va más allá de predecir proteínas existentes. Utilizando información recopilada a partir de 771 mil millones de datos únicos sobre estructura, función y secuencia, el modelo puede generar nuevas proteínas con funciones específicas. Un defensor de la escala evolutiva la describió como un «momento ChatGPT para la biología».
En el nuevo estudio, los investigadores interrogaron al modelo para producir una nueva proteína fluorescente, un tipo de proteína que captura la luz y la vuelve a liberar en longitudes de onda más largas, haciendo que brille en un nuevo tono de verde. Estas proteínas son importantes para los investigadores biológicos que las unen a las moléculas que les interesa estudiar para detectarlas y obtener imágenes; Su descubrimiento y desarrollo lograron un Premio Nobel de Química En 2008
El modelo produjo 96 proteínas con secuencias y estructuras que producen fluorescencia. Luego, los investigadores seleccionaron el que tenía menos secuencias en común con las proteínas naturalmente fluorescentes. Aunque esta proteína es 50 veces menos brillante que las proteínas fluorescentes verdes naturales, ESM3 hizo otra repetición que condujo a nuevas secuencias que aumentaron el brillo, y el resultado es la proteína fluorescente más verde que se encuentra en la naturaleza, llamada «esmGPF». El equipo de Evolutionary Scale estima que estas iteraciones, realizadas en momentos por IA, tomarían 500 millones de años de evolución para lograrse.
«En este momento, todavía no tenemos una comprensión fundamental de cómo se comportan las proteínas, especialmente las «nuevas para la ciencia», cuando se introducen en un sistema vivo, pero este es un nuevo paso interesante que nos permite abordar la biología sintética de una manera nueva. Modelar IA como ESM3 permite el descubrimiento de nuevas proteínas que las limitaciones de la selección natural nunca habrían permitido, evolución Si bien no es emocionante, la afirmación de que 500 millones de años de evolución solo se centran en proteínas individuales no explica los muchos pasos de la evolución. selección natural que crea la diversidad de ingeniería de proteínas impulsada por la IA que conocemos hoy, pero no creo que tengamos mucha confianza en asumir que podemos superar procesos complejos perfeccionados por millones de años de selección natural «.