Evo 2: Sistema de inteligencia artificial de código abierto entrenado en trillones de bases de ADN en todos los dominios de la vida

Puntos clave
- Evo 2 es un sistema de inteligencia artificial de código abierto entrenado en trillones de pares de bases de ADN.
- Incorpora genomas de bacterias, arqueas y eucariotas.
- El modelo aprende representaciones internas de ADN regulador y sitios de empalme.
- Evo 2 se basa en el sistema Evo anterior que destacó en genomas bacterianos.
- Aborda la complejidad de los genomas eucariotas, incluyendo intrones y elementos reguladores dispersos.
- El sistema abre nuevas avenidas para la investigación y la colaboración en bioinformática.
Evo 2 es un sistema de inteligencia artificial de código abierto que ha sido entrenado en trillones de pares de bases de ADN de bacterias, arqueas y eucariotas. Basándose en el modelo Evo anterior, que destacó en la predicción de secuencias de genes en genomas bacterianos, Evo 2 ahora aprende representaciones internas de características genómicas complejas como el ADN regulador, los sitios de empalme y los elementos dispersos que caracterizan a los genomas eucariotas. El sistema demuestra que la inteligencia artificial a gran escala puede capturar patrones incluso en las partes más intrincadas del genoma, abriendo nuevas posibilidades para la investigación en bioinformática.
Antecedentes y motivación
La cobertura anterior destacó un sistema de inteligencia artificial llamado Evo que fue entrenado en un número enorme de genomas bacterianos. El sistema podía, cuando se le daban secuencias de un cluster de genes relacionados, identificar correctamente el siguiente gen o sugerir una proteína completamente nueva. Este éxito se basó en la organización relativamente simple de los genomas bacterianos, donde los genes relacionados suelen estar agrupados juntos y los elementos reguladores son compactos.
Desafíos con genomas complejos
La informática original notó la incertidumbre sobre si el mismo enfoque funcionaría con genomas más complejos, como los de los eucariotas. El ADN eucariota contiene intrones - segmentos no codificantes que interrumpen las regiones codificantes - y secuencias reguladoras que pueden estar dispersas a lo largo de vastas extensiones de ADN. Estas características están débilmente definidas, con solo unas pocas bases siendo estrictamente requeridas y muchas mostrando tendencias probabilísticas. Además, los genomas eucariotas incluyen grandes cantidades de ADN que han sido etiquetados como "basura", que comprenden virus inactivos y genes dañados.
Evo 2: Extendiendo el modelo
Sin dejarse intimidar por estos desafíos, el equipo detrás de Evo se propuso crear Evo 2, un sistema de inteligencia artificial de código abierto entrenado en genomas de los tres dominios de la vida: bacterias, arqueas y eucariotas. Al ingerir trillones de pares de bases de ADN, Evo 2 desarrolló representaciones internas de características genómicas clave que son difíciles de detectar para los humanos, incluyendo motivos de ADN regulador y límites de sitios de empalme.
Capacidades clave
La capacitación de Evo 2 le permite reconocer patrones en todo el espectro de la complejidad genómica. En genomas bacterianos, sigue aprovechando la organización directa de genes contiguos y sistemas reguladores compactos. En genomas eucariotas, puede analizar genes que contienen intrones, localizar sitios reguladores débilmente definidos y diferenciar secuencias funcionales del ADN no funcional extenso que las rodea.
Implicaciones para la investigación
La emergencia de Evo 2 sugiere que los modelos de inteligencia artificial a gran escala pueden salvar la brecha entre las arquitecturas genómicas simples y complejas. Al aprender de conjuntos de datos vastos y diversos, dichos modelos pueden ayudar a los científicos a identificar elementos reguladores, predecir estructuras de genes y descubrir proteínas nuevas en una amplia gama de organismos. La naturaleza de código abierto de Evo 2 también invita a la colaboración y el desarrollo posterior dentro de la comunidad de bioinformática.