Relatório do OmniCalculator Descobre que o Grok Lidera em Matemática, Enquanto o Claude Supera em Qualidade de Escrita

Um novo benchmark do OmniCalculator mostra que o Grok 4.2 da xAI supera os chatbots de IA gratuitos em tarefas lógicas e matemáticas, enquanto o Claude 4.6 da Anthropic entrega a melhor consistência de escrita. Apesar de um aumento na popularidade do Claude devido a preocupações sobre os vínculos do ChatGPT com projetos militares, o ChatGPT da OpenAI permanece o modelo mais amplamente utilizado. O estudo destaca forças e taxas de instabilidade distintas nos principais bots, sugerindo que os usuários podem precisar combinar ferramentas com tarefas específicas em vez de buscar um único "modelo mais inteligente" de IA.

O OmniCalculator lançou uma análise comparativa dos principais chatbots de IA gratuitos, revelando uma divisão no desempenho entre raciocínio lógico e qualidade de prosa. O relatório coloca o Grok 4.2 da xAI no topo para problemas de matemática e lógica, enquanto o Claude 4.6 da Anthropic lidera no tratamento de documentos longos com uma voz estável e um tom medido.

O ChatGPT, ainda o chatbot mais popular em termos de contagem de usuários, fica aquém do Grok em capacidade raw de resolução de problemas, mas mantém uma grande base de usuários apesar de uma crescente migração em direção ao Claude. A mudança, o estudo observa, é impulsionada em parte por uma reação contra a participação da OpenAI em contratos de IA militares.

Quando testado em raciocínio multi-etapas, as versões legadas do Claude e do ChatGPT revisaram ou questionaram suas respostas aproximadamente 60 por cento do tempo. O Grok 4.2 reduziu essa taxa de instabilidade para 33,1 por cento, tornando-o menos provável de mudar de direção no meio do processo. A taxa de correção de erros mais baixa se traduz em uma consistência mais forte em tarefas lógicas, embora não garanta um estilo conversacional mais suave.

O Claude 4.6, por outro lado, se destaca na saída escrita. O modelo pode analisar e responder a textos extensos sem perder a coerência, preservando um tom consistente que muitos usuários consideram mais natural. Sua disposição em reconhecer a incerteza adiciona uma camada de profundidade percebida, diferenciando-o de modelos que projetam sobreconfiança.

O relatório adverte contra a declaração de um único "modelo mais inteligente" de IA. As forças variam por contexto: o Grok brilha em cálculos técnicos, o Claude entrega prosa polida e o ChatGPT retém um apelo amplo para consultas diárias. À medida que a competição se intensifica, os desenvolvedores provavelmente irão se concentrar em seus respectivos nichos em vez de perseguir uma solução de propósito geral.

A especialização pode se tornar o novo campo de batalha. Um bot que redige e-mails perfeitamente pode ainda tropeçar em desafios de codificação complexos, enquanto um modelo habilidoso em geração de código pode produzir texto conversacional entorpecido. Os usuários precisarão alinhar suas tarefas com o modelo que melhor se adapta ao conjunto de habilidades necessário.

No geral, as descobertas do OmniCalculator sublinham uma paisagem de IA nuances, onde as métricas de desempenho diferem marcadamente em diferentes dimensões. Os dados sugerem que o "melhor" chatbot depende do problema em questão e que os avanços futuros provavelmente enfatizarão o aprimoramento de capacidades distintas em vez de uma inteligência universal.

Relatório do OmniCalculator Descobre que o Grok Lidera em Matemática, Enquanto o Claude Supera em Qualidade de Escrita

Pontos principais

Também disponível em: