Evo 2: Sistema de Inteligência Artificial de Código Aberto Treinado em Trilhões de Bases de DNA em Todos os Domínios da Vida

Pontos principais
- O Evo 2 é um sistema de inteligência artificial de código aberto treinado em trilhões de pares de bases de DNA.
- Ele incorpora genomas de bactérias, arcaea e eucariotos.
- O modelo aprende representações internas de DNA regulatório e sítios de splicing.
- O Evo 2 se baseia no modelo Evo anterior, que se destacou em genomas bacterianos.
- Ele aborda a complexidade dos genomas eucarióticos, incluindo intrões e elementos regulatórios dispersos.
- O sistema abre novas vias para pesquisas em bioinformática e colaboração.
Evo 2 é um sistema de inteligência artificial de código aberto que foi treinado em trilhões de pares de bases de DNA de bactérias, arcaea e eucariotos. Com base no modelo Evo anterior, que se destacou na previsão de sequências de genes em genomas bacterianos, Evo 2 agora aprende representações internas de recursos genômicos complexos, como DNA regulatório, sítios de splicing e elementos dispersos que caracterizam genomas eucarióticos. O sistema demonstra que a inteligência artificial em larga escala pode capturar padrões, mesmo nas partes mais intricadas do genoma, abrindo novas possibilidades para pesquisas em bioinformática.
Contexto e Motivação
Coberturas anteriores destacaram um sistema de inteligência artificial chamado Evo, que foi treinado em um enorme número de genomas bacterianos. O sistema podia, quando dado sequências de um cluster de genes relacionados, identificar corretamente o próximo gene ou sugerir uma proteína completamente nova. Esse sucesso dependia da organização relativamente simples dos genomas bacterianos, onde genes relacionados estão frequentemente agrupados juntos e elementos regulatórios são compactos.
Desafios com Genomas Complexos
A reportagem original notou incerteza sobre se a mesma abordagem funcionaria com genomas mais complexos, como os de eucariotos. O DNA eucariótico contém intrões - segmentos não codificantes que interrompem regiões codificantes - e sequências regulatórias que podem estar dispersas em vastas extensões de DNA. Esses recursos são fracamente definidos, com apenas algumas bases sendo estritamente necessárias e muitas mostrando tendências probabilísticas. Além disso, os genomas eucarióticos incluem grandes quantidades de DNA que foram rotuladas como "lixo", compreendendo vírus inativos e genes danificados.
Evo 2: Extendendo o Modelo
Indiferentes a esses desafios, a equipe por trás do Evo decidiu criar o Evo 2, um sistema de inteligência artificial de código aberto treinado em genomas de todos os três domínios da vida: bactérias, arcaea e eucariotos. Ao ingerir trilhões de pares de bases de DNA, o Evo 2 desenvolveu representações internas de recursos genômicos-chave que são difíceis para humanos identificar, incluindo motivos de DNA regulatório e limites de sítios de splicing.
Capacidades Principais
O treinamento do Evo 2 permite que ele reconheça padrões em todo o espectro de complexidade genômica. Em genomas bacterianos, ele continua a aproveitar a organização direta de genes contíguos e sistemas regulatórios compactos. Em genomas eucarióticos, ele pode analisar genes que contêm intrões, localizar sítios regulatórios fracamente definidos e diferenciar sequências funcionais do extenso DNA não funcional que as rodeia.
Implicações para Pesquisas
A emergência do Evo 2 sugere que modelos de inteligência artificial em larga escala podem preencher a lacuna entre arquiteturas genômicas simples e complexas. Ao aprender com conjuntos de dados vastos e diversificados, tais modelos podem auxiliar cientistas na identificação de elementos regulatórios, previsão de estruturas de genes e descoberta de novas proteínas em uma ampla gama de organismos. A natureza de código aberto do Evo 2 também convida à colaboração e desenvolvimento adicional dentro da comunidade de bioinformática.