Google Apresenta o Gemini 3.1 Pro, Modelo de IA com Habilidades de Resolução de Problemas Aprimoradas

A Google anunciou a versão de pré-visualização do Gemini 3.1 Pro, uma versão atualizada do seu modelo de IA flagship Gemini 3. O novo modelo é posicionado como melhor em raciocínio complexo e resolução de problemas, apresentando ganhos notáveis em benchmarks como o Exame Final da Humanidade e o ARC-AGI-2.

Visão Geral do Modelo

A Google introduziu o Gemini 3.1 Pro como a próxima iteração da sua série Gemini, lançando-o hoje em formato de pré-visualização para desenvolvedores e consumidores. A empresa descreve o modelo como oferecendo habilidades de resolução de problemas e raciocínio mais fortes em comparação com seu antecessor, o Gemini 3.

Desempenho em Benchmarks

No Exame Final da Humanidade, que mede o conhecimento avançado em domínios específicos, o Gemini 3.1 Pro alcançou uma pontuação recorde de 44,4 por cento, superando a pontuação de 37,5 por cento do Gemini 3 e superando a pontuação de 34,5 por cento do GPT 5.2 da OpenAI. No teste ARC-AGI-2, projetado para avaliar desafios lógicos novos que não podem ser treinados diretamente, o Gemini 3.1 Pro mais que dobrou a pontuação anterior da Google, alcançando 77,1 por cento em comparação com a pontuação de 31,1 por cento do Gemini 3.

Paisagem Competitiva

Apesar dos ganhos, o Gemini 3.1 Pro não lidera a lista de líderes da Arena, que reflete os votos de preferência dos usuários em saídas de modelos. Na categoria de texto, o Claude Opus 4.6 lidera por quatro pontos, enquanto para tarefas de código, o Opus 4.6, Opus 4.5 e GPT 5.2 High mantêm uma vantagem modesta sobre o Gemini 3.1 Pro.

Integração com o Deep Think

O novo modelo também impulsiona as últimas atualizações da ferramenta Deep Think da Google, indicando que o Gemini 3.1 Pro serve como a "inteligência central" subjacente para essa funcionalidade.

Implicações

O anúncio da Google destaca um foco contínuo no aprimoramento de grandes modelos de linguagem para raciocínio de ordem superior, mesmo que os benchmarks competitivos mostrem resultados mistos. A pré-visualização permite que os desenvolvedores acessem precocemente o modelo para testar suas capacidades em aplicações do mundo real, enquanto a empresa continua a coletar feedback para uma implantação mais ampla.