La IA revela actividad genética en células humanas

Neuroscience News logo for mobile.

Resumen: Los investigadores han desarrollado un modelo de IA que puede predecir con precisión la actividad genética en cualquier célula humana, proporcionando información sobre las funciones celulares y los mecanismos de las enfermedades.

El modelo, formado con datos de más de 1,3 millones de células, puede predecir la expresión genética en tipos de células invisibles con gran precisión. Ya ha revelado los mecanismos que impulsan la leucemia infantil y puede ayudar a explorar la «materia oscura» del genoma donde se producen la mayoría de las mutaciones del cáncer.

hechos importantes

  • IA y actividad genética: Los modelos de IA predicen la expresión genética en tipos de células invisibles utilizando datos genómicos y de expresión, lo que permite conocer las funciones celulares.
  • Diagnóstico del cáncer infantil: El sistema identificó cómo mutaciones específicas alteran los factores de transcripción en la leucemia pediátrica, confirmado mediante experimentos de laboratorio.
  • Explorando la «materia oscura» del genoma: El modelo ofrece herramientas para estudiar regiones del genoma no codificantes, lo que ilumina el papel de mutaciones inexploradas en el cáncer y las enfermedades.

Fuente: Universidad de Columbia

Utilizando un nuevo método de inteligencia artificial, investigadores del Colegio de Médicos y Cirujanos Vagelos de la Universidad de Columbia pueden predecir con precisión la actividad de los genes dentro de cualquier célula humana, revelando esencialmente los mecanismos internos de la célula.

sistema descrito en el presente número la naturalezaComprender todo, desde el cáncer hasta las enfermedades genéticas, puede transformar la forma en que trabajan los científicos.

Muestra versiones generadas por computadora de células humanas.
Los nuevos métodos computacionales deberían permitir a los investigadores comenzar a explorar el papel de la «materia oscura» del genoma (un término tomado de la cosmología para referirse a la mayor parte del genoma que no codifica genes conocidos) en el cáncer y otras enfermedades. Crédito: Noticias de neurociencia

«Los modelos computacionales predictivos generalizables permiten revelar procesos biológicos de manera rápida y precisa. Estos métodos pueden realizar de manera eficiente experimentos computacionales a gran escala, estimulando y guiando los métodos experimentales tradicionales», dice Raúl Rabadon, profesor de biología de sistemas y autor principal del estudio. papel nuevo.

Los métodos de investigación tradicionales en biología son buenos para revelar cómo las células realizan su trabajo o responden a las perturbaciones. Pero no pueden predecir cómo funcionarán las células o cómo responderán a un cambio, como una mutación que causa cáncer.

«Tener la capacidad de predecir con precisión las actividades celulares transformará nuestra comprensión de los procesos biológicos fundamentales», dice Rabadon.

«Transforma la biología de una ciencia que describe procesos aleatorios a una que puede predecir los sistemas subyacentes que gobiernan el comportamiento celular».

En los últimos años, la recopilación masiva de datos de células y modelos de IA cada vez más potentes están empezando a transformar la biología en una ciencia más predictiva.

El Premio Nobel de Química 2024 fue otorgado a investigadores por su trabajo innovador en el uso de la IA para predecir estructuras de proteínas. Pero el uso de métodos de IA para predecir las actividades de genes y proteínas dentro de las células ha resultado más difícil.

Un nuevo método de IA predice la expresión genética en cualquier célula

En el nuevo estudio, Rabadon y sus colegas intentaron utilizar la IA para predecir qué genes están activos en células específicas. Esta información sobre la expresión genética puede indicar a los investigadores la identidad de una célula y cómo realiza sus funciones.

«Los modelos anteriores se entrenaron con datos sobre tipos de células específicos, generalmente líneas celulares cancerosas o cualquier otra cosa que tenga cierta semejanza con las células normales», dice Rabadon.

Xi Fu decidió adoptar un enfoque diferente en el laboratorio de Rabadan, entrenando un modelo de aprendizaje automático con datos de expresión genética de millones de células obtenidas de tejidos humanos normales.

Los datos de entrada consistieron en secuencias del genoma y datos que mostraban a qué partes del genoma se podía acceder y expresar.

El enfoque general es similar a la forma en que funcionan ChatGPT y otros modelos «fundamentales» populares. Estos sistemas utilizan un conjunto de datos de entrenamiento para identificar reglas subyacentes, la gramática de un idioma, y ​​luego aplican esas reglas predichas a situaciones nuevas.

«Es lo mismo aquí: aprendemos la gramática en diferentes estados celulares, y luego vamos a un determinado estado (podría ser una enfermedad o podría ser un tipo de célula normal) y vemos qué tan bien podemos inferir patrones a partir de esto. información», dice Rabadon.

Fu y Rabadon pronto reclutaron un equipo de colaboradores, incluido el coautor Alejandro Buendía, ahora estudiante de doctorado en Stanford en el laboratorio de Rabadon, y Shentang Mo de Carnegie Mellon para entrenar y probar el nuevo modelo.

Después de ser entrenado con datos de más de 1,3 millones de células humanas, el sistema se volvió lo suficientemente preciso como para predecir la expresión genética en tipos de células que nunca antes había visto, produciendo resultados que coincidían estrechamente con los datos experimentales.

Nuevos métodos de IA revelan las causas del cáncer infantil

A continuación, los investigadores mostraron el poder de su sistema de inteligencia artificial cuando se les pidió que descubrieran la biología aún oculta de las células enfermas, en este caso, una forma genética de leucemia pediátrica.

«Estos niños heredan un gen mutado y no está claro qué están haciendo estas mutaciones», dice Rabadan, quien codirige el Programa de Investigación de Genómica y Epigenómica del Cáncer en el Centro Integral del Cáncer Herbert Irving de Columbia.

Con la IA, los investigadores plantearon la hipótesis de que las mutaciones interrumpen la interacción entre dos factores de transcripción diferentes que determinan el destino de las células leucémicas. Los experimentos de laboratorio confirmaron el futuro de la IA. Comprender el efecto de estas mutaciones revelará los mecanismos específicos que impulsan esta enfermedad.

La IA puede descubrir «materia oscura» en el genoma

Los nuevos métodos computacionales deberían permitir a los investigadores comenzar a explorar el papel de la «materia oscura» del genoma (un término tomado de la cosmología para referirse a la mayor parte del genoma que no codifica genes conocidos) en el cáncer y otras enfermedades.

«La mayoría de las mutaciones encontradas en pacientes con cáncer se encuentran en las llamadas regiones oscuras del genoma. Estas mutaciones no afectan la función de la proteína y permanecen en gran medida inexploradas», afirma Rabadon.

«La idea es que con estas muestras podamos ver mutaciones e iluminar parte del genoma».

Rabadon ya está trabajando con investigadores de Columbia y otras universidades, explorando diferentes tipos de cáncer, desde el cerebro hasta el de la sangre, aprendiendo la gramática de la regulación en las células normales y cómo las células cambian durante el proceso de desarrollo del cáncer.

Este trabajo abre nuevas vías para comprender muchas enfermedades más allá del cáncer y potencialmente identificar objetivos para nuevas terapias. Al introducir nuevas mutaciones en un modelo informático, los investigadores ahora pueden obtener conocimientos y predicciones más profundos sobre cómo esas mutaciones afectan a la célula.

Tras otros avances recientes en inteligencia artificial para biología, Rabadon ve este trabajo como parte de una tendencia importante: “Es realmente una nueva era en biología que es muy emocionante; «Transformar la biología en una ciencia predictiva».

Información adicional

El artículo, titulado «Modelado fundamental de la transcripción entre tipos de células humanas», se publicó el 8 de enero en Nature.

Autores (todos de Colombia excepto donde se indique): Xie Fu, Shentang Mo, Alejandro Buendia, Anouchka P. Laurent, Anki Shao, María del Mar Alvarez-Torres, Tianji Yu, Jimin Tan (Facultad de Medicina Grossman de la Universidad de Nueva York, Nueva York, NY), Jiayu Su, Romella Sagatelian, Adolf A. Ferrando (Columbia y Regeneron, Tarrytown, NY ), Alberto Cicia, Yanyan Lan (Universidad de Tsinghua, Beijing, China), David M. Owens Teresa Palomero, Eric P. Xing (Mohammed).

Sobre esta noticia sobre investigación en IA y genética

Autor: helen gary
Fuente: Universidad de Columbia
Contacto: Helen Garey – Universidad de Columbia
Imagen: Imagen acreditada a Neuroscience News.

Investigación Básica: Acceso abierto.
«Un modelo fundamental de transcripción entre tipos de células humanas» por Raoul Rabadon et al. la naturaleza


Abstracto

Modelado basal de la transcripción entre tipos de células humanas.

La regulación transcripcional, que implica interacciones complejas entre secuencias reguladoras y proteínas, dirige todos los procesos biológicos. Los modelos computacionales de transcripción carecen de la capacidad de generalización para extrapolar con precisión a tipos y condiciones de células invisibles.

Aquí presentamos GET (Transformador de expresión general), un modelo básico interpretable diseñado para descubrir gramáticas regulatorias en 213 tipos de células adultas y embrionarias humanas.

Basándose exclusivamente en datos de accesibilidad de la cromatina e información de secuencia, GET logra una precisión de nivel experimental en la predicción de la expresión genética incluso en tipos de células nunca antes vistas.

GET muestra una compatibilidad notable entre nuevas plataformas y ensayos de secuenciación, lo que permite la determinación regulatoria en una amplia gama de tipos y condiciones de células y revela redes de interacción de factores de transcripción universales y específicas de cada tipo de célula.

Evaluamos su desempeño en la predicción de la actividad regulatoria, la determinación de elementos regulatorios y reguladores, y la identificación de interacciones físicas entre factores de transcripción, y encontramos que el ensayo de reportero paralelo masivo basado en lentivirus supera a los modelos actuales en la predicción de lecturas.

En los eritroblastos embrionarios, identificamos regiones reguladoras distantes (más de 1 Mbp) que los modelos anteriores no detectaron, y en las células B, identificamos una interacción entre el factor de transcripción y el factor de transcripción específico de los linfocitos que puede explicar la importancia funcional del pronóstico del riesgo de leucemia. Transformación de la línea germinal.

En general, proporcionamos un modelo generalizable y preciso para la transcripción con catálogos de regulación genética e interacciones de factores de transcripción, todos con especificidad de tipo celular.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *