Modelos de IA Não Atendem às Expectativas em Nova Avaliação Profissional, Constatam Pesquisadores
Pontos principais
- O benchmark APEX-Agents testa a IA em tarefas reais de consultoria, banco e direito.
- Todos os modelos avaliados não atendem ao benchmark, com precisão máxima em torno de 24%.
- A razão multi-domínio em ferramentas como Slack e Google Drive é uma grande fraqueza.
- O desempenho atual da IA é comparável ao de um estagiário que obtém a resposta certa cerca de um quarto do tempo.
- O benchmark está disponível publicamente, incentivando pesquisas e melhorias adicionais.
Um novo benchmark chamado APEX-Agents, projetado para testar o desempenho de IA em tarefas profissionais do mundo real em consultoria, banco de investimentos e direito, revela que os atuais modelos de IA têm dificuldade em atender às demandas do trabalho do conhecimento. Pesquisadores da Mercur relatam que mesmo os modelos de melhor desempenho respondem corretamente apenas cerca de um quarto das perguntas, destacando desafios na razão multi-domínio e na recuperação de informações em ferramentas como Slack e Google Drive. Os resultados sugerem que a IA ainda está longe de substituir profissionais qualificados em funções de alto valor.
Contexto
Cerca de dois anos após um CEO de tecnologia prever que a inteligência artificial substituiria muitos empregos de trabalho do conhecimento, o progresso foi mais lento do que o esperado. Embora os grandes modelos de linguagem tenham avançado em capacidades de pesquisa e planejamento, seu impacto em profissões como consultoria, banco de investimentos e direito permanece limitado.
Apresentando o Benchmark APEX-Agents
Para avaliar a prontidão da IA para tarefas profissionais, pesquisadores da Mercur criaram um benchmark chamado APEX-Agents. O teste utiliza consultas reais de especialistas no mercado da empresa e mede como os sistemas de IA podem lidar com trabalho sustentado e específico de domínio. Cenários são modelados após ambientes profissionais reais, exigindo navegação em múltiplas plataformas e fontes de dados.
Resultados do Desempenho
Os resultados do benchmark mostram que todos os modelos de IA avaliados recebem notas de reprovação. Mesmo o sistema de melhor desempenho, Gemini 3 Flash, alcança apenas 24% de precisão em uma única tentativa, enquanto o GPT-5.2 marca 23%. Outros modelos giram em torno de 18% de precisão. Na maioria dos casos, os modelos fornecem respostas incorretas ou nenhuma resposta, indicando uma lacuna significativa entre as capacidades atuais da IA e as demandas de tarefas profissionais de alto valor.
Desafios Chave Identificados
Pesquisadores identificaram a razão multi-domínio como o maior obstáculo. Profissionais geralmente trabalham em ferramentas como Slack, Google Drive e outros sistemas internos, e os modelos de IA tiveram dificuldade em recuperar e sintetizar informações espalhadas por esses ambientes. Essa limitação prejudica a capacidade dos modelos de realizar tarefas que exigem contexto abrangente e referência cruzada de dados.
Implicações para o Futuro do Trabalho
Os resultados sugerem que, por enquanto, os sistemas de IA são comparáveis a estagiários que obtêm a resposta certa aproximadamente um quarto do tempo. No entanto, pesquisadores observam que o progresso tem sido rápido, com o desempenho atual representando uma melhoria notável em relação aos anos anteriores. O lançamento público do benchmark APEX-Agents convida laboratórios de IA a desenvolver soluções melhores, potencialmente acelerando avanços em direção a assistentes profissionais mais capazes.