Una vez secuenciado el genoma humano, de tres mil millones de letras, nos precipitamos a una nueva era «ómica» de la investigación biológica. Los científicos se apresuran ahora a secuenciar los genomas (todos los genes) o los proteomas (todas las proteínas) de diversos organismos, y en el proceso están recopilando cantidades ingentes de datos.

Por ejemplo, un científico puede utilizar herramientas «ómicas» como la secuenciación del ADN para averiguar qué genes humanos se ven afectados en una infección viral de la gripe. Pero como el genoma humano tiene al menos 25.000 genes en total, el número de genes alterados incluso en un escenario tan simple podría ser de miles.
Aunque la secuenciación e identificación de genes y proteínas les da un nombre y un lugar, no nos dice lo que hacen. Tenemos que entender cómo estos genes, proteínas y todo lo que hay entre ellos interactúan en diferentes procesos biológicos.
Hoy en día, incluso los experimentos básicos producen grandes datos, y uno de los mayores retos es separar los resultados relevantes del ruido de fondo. Los ordenadores nos ayudan a superar esta montaña de datos, pero pueden incluso ir un paso más allá, ayudándonos a formular hipótesis científicas y a explicar nuevos procesos biológicos. La ciencia de los datos, en esencia, permite la investigación biológica de vanguardia.
Los ordenadores al rescate
Los ordenadores están especialmente capacitados para manejar conjuntos de datos masivos, ya que pueden seguir simultáneamente todas las condiciones importantes necesarias para el análisis.
Aunque podrían reflejar los errores humanos con los que están programados, los ordenadores pueden manejar grandes cantidades de datos de forma eficiente y no están sesgados hacia lo familiar, como podrían estarlo los investigadores humanos.
También se puede enseñar a los ordenadores a buscar patrones específicos en conjuntos de datos experimentales, un concepto denominado aprendizaje automático, propuesto por primera vez en la década de 1950, sobre todo por el matemático Alan Turing. A un algoritmo que ha aprendido los patrones de los conjuntos de datos se le puede pedir que haga predicciones basadas en nuevos datos que nunca ha encontrado antes.
El aprendizaje automático ha revolucionado la investigación biológica, ya que ahora podemos utilizar grandes conjuntos de datos y pedir a los ordenadores que nos ayuden a entender la biología subyacente.
Entrenar ordenadores para que «piensen» simulando procesos cerebrales
En nuestro laboratorio hemos utilizado un tipo interesante de aprendizaje automático, denominado red neuronal artificial (RNA). Los cerebros son redes de neuronas altamente interconectadas, que se comunican enviando impulsos eléctricos a través del cableado neuronal. Del mismo modo, una RNA simula en el ordenador una red de neuronas que se encienden y apagan en respuesta a las señales de otras neuronas.
Aplicando algoritmos que imitan los procesos de las neuronas reales, podemos hacer que la red aprenda a resolver muchos tipos de problemas. Google utiliza una potente RNA para su ya famoso proyecto Deep Dream, en el que los ordenadores pueden clasificar e incluso crear imágenes.
Nuestro grupo estudia el sistema inmunitario, con el objetivo de averiguar nuevas terapias para el cáncer. Hemos utilizado modelos computacionales de RNA para estudiar los códigos de proteínas de superficie cortos que utilizan nuestras células inmunitarias para determinar si algo es extraño para nuestro cuerpo y, por tanto, debe ser atacado. Si comprendemos mejor cómo nuestras células inmunitarias (como las células T) diferencian entre células normales/propias y anormales/extrañas, podremos diseñar mejores vacunas y terapias.
Hemos revisado los catálogos públicos de miles de códigos de proteínas identificados por los investigadores a lo largo de los años. Dividimos este gran conjunto de datos en dos: códigos proteicos normales derivados de células humanas sanas y códigos proteicos anormales derivados de virus, tumores y bacterias. Luego recurrimos a una red neuronal artificial desarrollada en nuestro laboratorio.
Una vez introducidos los códigos de proteínas en la RNA, el algoritmo fue capaz de identificar las diferencias fundamentales entre los códigos de proteínas normales y anormales. Sería difícil para la gente seguir la pista de este tipo de fenómenos biológicos: hay literalmente miles de estos códigos de proteínas para analizar en el gran conjunto de datos. Se necesita una máquina para resolver estos complejos problemas y definir una nueva biología.
Predicciones mediante el aprendizaje automático
La aplicación más importante del aprendizaje automático en biología es su utilidad para hacer predicciones basadas en big data. Las predicciones basadas en el ordenador pueden dar sentido a los grandes datos, probar hipótesis y ahorrar un tiempo y unos recursos preciosos.
Por ejemplo, en nuestro campo de la biología de las células T, saber a qué códigos de proteínas virales dirigirse es fundamental para desarrollar vacunas y tratamientos. Pero hay tantos códigos de proteínas individuales de cualquier virus que es muy caro y difícil probar experimentalmente cada uno de ellos.
En su lugar, entrenamos a la red neuronal artificial para que la máquina aprendiera todas las características bioquímicas importantes de los dos tipos de códigos de proteínas: los normales y los anormales. A continuación, pedimos al modelo que «predijera» qué nuevos códigos de proteínas virales se asemejan a la categoría «anormal» y podrían ser vistos por las células T y, por tanto, por el sistema inmunitario. Probamos el modelo RNA con diferentes proteínas víricas que nunca se habían estudiado antes.
Sin duda, como un estudiante diligente ansioso por complacer al profesor, la red neuronal fue capaz de identificar con precisión la mayoría de estos códigos de proteínas activadoras de las células T dentro de este virus. También probamos experimentalmente los códigos de proteínas que marcó para validar la exactitud de las predicciones de la RNA. Con este modelo de red neuronal, un científico puede predecir rápidamente todos los códigos proteicos cortos importantes de un virus dañino y probarlos para desarrollar un tratamiento o una vacuna, en lugar de adivinarlos y probarlos individualmente.
Aplicar el aprendizaje automático de forma inteligente
Gracias al constante perfeccionamiento, la ciencia de los grandes datos y el aprendizaje automático son cada vez más indispensables para cualquier tipo de investigación científica. Las posibilidades de utilizar ordenadores para entrenar y predecir en biología son casi infinitas. Desde averiguar qué combinación de biomarcadores es la mejor para detectar una enfermedad hasta entender por qué sólo algunos pacientes se benefician de un determinado tratamiento contra el cáncer, la extracción de grandes conjuntos de datos mediante ordenadores se ha convertido en una valiosa vía para la investigación.
Por supuesto, hay limitaciones. El mayor problema de la ciencia de los grandes datos son los propios datos. Si los datos obtenidos por los estudios -ómicos son defectuosos para empezar, o se basan en una ciencia deficiente, las máquinas se entrenarán con datos malos, lo que dará lugar a predicciones deficientes. El alumno es tan bueno como el maestro.
Dado que los ordenadores no son sensibles (todavía), pueden, en su búsqueda de patrones, llegar a ellos incluso cuando no existen, dando lugar de nuevo a datos erróneos y a una ciencia no reproducible.
Y algunos investigadores han expresado su preocupación por el hecho de que los ordenadores se conviertan en cajas negras de datos para los científicos que no entienden claramente las manipulaciones y maquinaciones que realizan en su nombre.
A pesar de estos problemas, los beneficios de los big data y las máquinas seguirán convirtiéndolos en valiosos socios de la investigación científica. Teniendo en cuenta las advertencias, estamos en una situación única para entender la biología a través de los ojos de una máquina.