La palabra del día, al menos en IA para la comunidad biológica, es modelos fundamentales. Todo el mundo quiere big data sobre más cosas para incluir modelos más grandes.
Los modelos de células virtuales nos permiten predecir cómo cambian los estados de las células en respuesta a perturbaciones químicas. Los modelos de lenguaje de proteínas nos permiten identificar mejores enzimas para plásticos o aglutinantes de proteínas con propiedades más similares a las de los fármacos. Estas capas se encuentran por encima de los datos genómicos más accesibles. El futuro es brillante.
Los descubrimientos de biología real se ven un poco diferentes, y supongo que estoy diciendo que no hay muchos biólogos reales en reuniones de biología de IA como NeuriIPS, una conferencia sobre sistemas de procesamiento de información neuronal. Asistí el mes pasado en Vancouver BC.
Contraste estos sueños de modelos fundamentales que impulsan el descubrimiento biológico con una lista de temas recientes. ciencia O la naturaleza:
Me cuesta imaginar cómo cualquiera de estos descubrimientos surgiría del modelo básico de la biología multimodal.
Este no pretende ser un argumento de hombre de paja. Seguramente, el modelo básico podría identificar el lncRNA del primer artículo, pero no estoy seguro de cómo dicho modelo básico lo integra con la remodelación de la cromatina.
Un modelo básico multimodal con datos suficientes también podría identificar cambios metabólicos asociados con las células de melanoma sometidas a ciertos tipos de terapias, pero no veo cómo ese modelo básico identificaría el efecto de esos metabolitos en la inhibición de la activación de las células T CD8+. De hecho, no creo que ninguno de los modelos fundamentales que se están desarrollando hoy tenga el potencial de generar el tipo de conocimientos biológicos nuevos y ricos que se describen en estos artículos. Y, sin embargo, estos son los conocimientos que aportan los nuevos tratamientos.
El problema es que los modelos de aprendizaje automático funcionan mejor con datos estructurados, por lo que todos los modelos fundamentales que se construyen están altamente estructurados. Tome una secuencia de proteínas como entrada y produzca una secuencia de proteínas como salida. Tome el estado de la celda y la perturbación química como entrada y produzca un nuevo estado de la celda como salida.
Sin embargo, la biología está mal estructurada. La idea del lncRNA es un buen ejemplo: ¿qué representación estructural podemos usar para la acción del lncRNA en la modulación de la arquitectura de la cromatina? Los modelos de proteínas no pueden representar eso; Las muestras de ADN no pueden representar eso; Los modelos de células virtuales no representan eso. Quizás un modelo que combine la expresión de ARN y el estado del genoma 3D pueda representarlo, pero ¿cómo representa ese modelo la modulación de lípidos de los monocitos?
Me preocupa que cada innovación necesite su propio espacio de representación. De hecho, la naturaleza de la biología carece de representación alguna, ya que carece de un modelo en el espacio real de resolución atómica de todo el organismo, que sea suficiente para representar la diversidad de fenómenos biológicos asociados con las enfermedades. Un modelo de organismo completo de este tipo está muy lejos: aún no disponemos de un modelo informático que represente plenamente la complejidad de una sola célula viva.
Excepto, por supuesto, que el lenguaje natural ha evolucionado para representar todos los conceptos que los humanos son capaces de pensar. De hecho, creo que el lenguaje natural es, en última instancia, indispensable para los descubrimientos en biología, el único medio que conocemos que está lo suficientemente estructurado para el aprendizaje automático y lo suficientemente flexible como para representar toda la diversidad de conceptos biológicos.
Una forma de combinar lenguaje y biología es utilizar agentes como los que construimos en FutureHouse, el laboratorio de inteligencia artificial sin fines de lucro que dirijo en San Francisco. Los agentes lingüísticos (modelos de lenguaje como ChatGPT) se pueden utilizar para implementar herramientas de búsqueda de literatura (por ejemplo, PubMed), herramientas de predicción de estructuras de proteínas (por ejemplo, AlphaFold), herramientas de análisis de ADN (por ejemplo, BLAST) y analizar datos biológicos de la misma manera que lo hacen los humanos. , pero mucho más rápido y a una escala mucho mayor. Recientemente encargamos al agente PaperQA2 que creamos que buscara en la literatura y escribiera un artículo preciso y referenciado al estilo de Wikipedia para cada gen codificador de proteínas en el genoma humano. En el futuro, los agentes lingüísticos podrán analizar automáticamente datos experimentales e informes clínicos y proporcionar hipótesis biológicas detalladas similares a las de los artículos anteriores sobre Naturaleza y Ciencia.
Hay otras formas de combinar lenguaje y biología. Los modelos de entrenamiento que combinan el lenguaje natural con proteínas, ADN, transcriptómica, etc., son extremadamente productivos, siempre que la inclusión de tipos de datos estructurados no restrinja la capacidad de representar conceptos no estructurados.
La historia de la biología se basa en las herramientas que encontramos en la naturaleza para estudiar los fenómenos biológicos. CRISPR es un poderoso ejemplo reciente. Como todos los biólogos saben, intentar diseñar cosas (casi) desde cero nunca funciona; Encontrar materiales en la naturaleza y reciclarlos es lo que funciona. Nuestras representaciones diseñadas para estudiar biología resultan una vez más agradables estéticamente, y el viejo lenguaje natural que encontramos en la naturaleza es otra de esas herramientas que se pueden aplicar para desbloquear los misterios de la biología.