Un sistema de IA acaba de hacer el mayor descubrimiento simultáneo de virus de la historia. De una sola prueba, el algoritmo de aprendizaje profundo LucaProt detectó 161,979 nuevos virus de ARN y 180 supergrupos de virus ocultos en 10,487 metatranscriptomas en bases bioinformáticas de todo el mundo.
Los virus usualmente no se descubren con un vistazo al microscopio esperando ver qué hay de nuevo. La ciencia utiliza la secuenciación genética para encontrar cadenas de ADN o ARN en una muestra y luego compara los resultados con bases de datos previas. Si la secuencia genética coincide, se trata de un virus conocido. Si no está en los registros mundiales, entonces se investiga a profundidad para hallar al nuevo microbio.
Por su parte, los metatranscriptomas son el conjunto de información genética que contempla una comunidad microbiana. Se puede pensar en ellos como la suma de todos los datos de ADN o ARN de un lugar, que se utilizan para medir el nivel de complejidad o diversidad del ecosistema. En ellos puede haber virus que no podrán ser identificados porque las computadoras que revisan la información simplemente no encuentran coincidencias en las bases de datos disponibles.
Pero la inteligencia artificial (IA) puede predecir la estructura de los virus e identificar esos patrones en grandes volúmenes de información de metatranscriptomas. Eso fue lo que hizo un grupo de científicos de China y Australia con LucaProt. Entrenaron un modelo de IA capaz de calcular las variantes genéticas de virus y lo enviaron a explorar las bases de datos de todo el mundo. Tras perfeccionar el método, encontraron 161 mil nuevas especies de microbios de un solo movimiento.
“La gran mayoría de estos virus ya habían sido secuenciados y estaban en bases de datos públicas, pero eran tan divergentes que nadie sabía qué eran. Conformaban lo que a menudo se conoce como secuencia de ‘materia oscura’. Nuestro modelo de IA fue capaz de organizar y categorizar toda esta información dispar, arrojando luz sobre el significado de esta materia oscura por primera vez”, explicó Edwards Holmes, coautor del estudio publicado en Cells.
Casi todos los seres vivos están hechos de ácido desoxirribonucleico (ADN). Pero los virus usualmente se forman a partir de ácido ribonucleico (ARN). Este es de cadena simple en lugar de tener doble hélice y, como es menos estable, permite a los virus evolucionar rápidamente, resistir al ambiente y adaptarse a diferentes huéspedes. Los virus de la influenza, covid 19, VIH, ébola, dengue o zika son algunos ejemplos de organismos de ARN.
“Solíamos confiar en tediosas tuberías de bioinformática para el descubrimiento de virus, lo que limitaba la diversidad que podíamos explorar. Ahora, contamos con un modelo basado en IA mucho más efectivo que ofrece una sensibilidad y especificidad excepcionales, y al mismo tiempo nos permite profundizar mucho más en la diversidad viral. Planeamos aplicar este modelo en varias aplicaciones”, explicó Sun Yat-se, otro de los autores de la investigación.
La capacidad predictiva de los sistemas de inteligencia artificial aplicados a la ciencia está generando sus primeros resultados. El Premio Nobel de Física 2024 fue otorgado a John J. Hopfield y Geoffrey E. Hinton, los “padrinos de la IA y el machine learning”. Su trabajo es la base de la tecnología que ayuda a predecir proteínas para la medicina del futuro. Mientras tanto, hace poco se encontraron cientos de nuevas figuras en el desierto de Nazca con la asistencia de una IA. Los arqueólogos del estudio consideraron que el uso de la tecnología es una nueva revolución en su campo.