DeepMind Apresenta o SIMA 2, um Agente de IA Encarnado Impulsionado pelo Gemini

DeepMind introduziu o SIMA 2, a próxima geração de seu agente de IA de propósito geral que combina as capacidades de linguagem e raciocínio do modelo Gemini com habilidades de IA encarnada aprendidas com dados de jogos de vídeo. O novo sistema pode entender instruções complexas, raciocinar internamente e melhorar a si mesmo por meio de experiências auto-geradas, efetivamente dobrando o desempenho de seu antecessor, o SIMA 1. Demonstrações mostraram o SIMA 2 navegando em mundos virtuais fotorealistas, interpretando emojis e explicando seu processo de pensamento, sinalizando um passo em direção a robôs mais capazes e uma pesquisa mais ampla em inteligência artificial geral.

Visão Geral

DeepMind apresentou uma prévia de pesquisa do SIMA 2, a última encarnação de seu agente de IA encarnado. Ao integrar o Gemini, o grande modelo de linguagem do Google, o SIMA 2 vai além do simples seguimento de instruções para uma compreensão mais profunda da intenção do usuário e do ambiente ao seu redor.

Avanços Técnicos

O SIMA 2 se baseia na fundação de treinamento de seu antecessor, o SIMA 1, que aprendeu com centenas de horas de footage de jogos de vídeo para jogar vários jogos em 3D. Enquanto o SIMA 1 alcançou uma taxa de sucesso de 31% em tarefas complexas em comparação com 71% para humanos, o SIMA 2 "dobra o desempenho do SIMA 1", de acordo com a DeepMind.

O agente aproveita o Gemini para raciocínio interno, permitindo que ele articule seu processo de tomada de decisões. Em uma demonstração, quando solicitado a encontrar uma casa da cor de um tomate maduro, o SIMA 2 explicou: "tomates maduros são vermelhos, portanto devo ir para a casa vermelha", e então localizou o alvo.

O SIMA 2 também interpreta emojis, permitindo que os usuários emitam comandos como "🪓🌲" para instruir o agente a derrubar uma árvore. O sistema pode navegar em mundos virtuais fotorealistas recém-gerados produzidos pelo modelo Genie da DeepMind, identificando corretamente objetos como bancos, árvores e borboletas.

Loop de Auto-Aprimoramento

Ao contrário do SIMA 1, que se baseava apenas em dados de jogabilidade gerados por humanos, o SIMA 2 usa um loop de auto-aprimoramento. O agente propõe novas tarefas a um modelo Gemini separado, recebe uma pontuação de recompensa de um modelo de recompensa dedicado e então treina em suas próprias tentativas. Esse processo orientado por feedback permite que o SIMA 2 ensine a si mesmo novos comportamentos sem uma extensa rotulagem humana.

Impacto Potencial

Os pesquisadores da DeepMind veem o SIMA 2 como um passo em direção a robôs mais genéricos. Frederic Besse explicou que um sistema do mundo real precisaria de "uma compreensão de alto nível do mundo real e do que precisa ser feito, bem como algum raciocínio". Embora a demonstração atual se concentre em ambientes virtuais, a tecnologia subjacente visa fechar a lacuna entre o raciocínio de alto nível e o controle motor de baixo nível necessário para robôs físicos.

Perspectiva Futura

A DeepMind não forneceu um cronograma para implantar o SIMA 2 em sistemas de robótica física. No entanto, a prévia visa mostrar as capacidades da plataforma e explorar oportunidades de colaboração. A equipe enfatizou que o SIMA 2 é uma prévia de pesquisa, com desenvolvimento e integração adicionais em iniciativas mais amplas de IA e robótica antecipados.