Talvez agentes de IA possam ser advogados afinal

Maybe AI agents can be lawyers after all

Pontos principais

  • O benchmark da Mercor mediu o desempenho da IA em tarefas de direito e análise corporativa.
  • Todos os modelos principais anteriormente pontuaram abaixo de 25 por cento.
  • O Opus 4.6 da Anthropic alcançou quase 30 por cento em testes de uma única tentativa.
  • Com várias tentativas, o Opus 4.6 alcançou uma média de 45 por cento.
  • O novo recurso "enxame de agentes" pode ter impulsionado a resolução de problemas multietapas.
  • O CEO da Mercor, Brendan Foody, chamou o salto de pontuação de "insano".
  • As pontuações ainda estão longe da competência jurídica total, mas a lacuna está se fechando.
  • Profissionais do direito devem adotar uma perspectiva mais cautelosa sobre a substituição da IA.

Testes de benchmark recentes de agentes de IA em tarefas profissionais mostram um salto notável no desempenho, especialmente após a Anthropic lançar o Opus 4.6. O novo modelo impulsionou as pontuações de baixos 20 para quase 30 por cento em testes de uma única tentativa e alcançou uma média de 45 por cento com várias tentativas. Embora ainda esteja longe da competência total, a melhoria sinaliza um progresso rápido nos modelos de fundação e sugere que profissionais do direito podem precisar reavaliar o cronograma para a substituição da IA.

Destaque do benchmark mostra progresso rápido da IA

No mês passado, um benchmark criado pela Mercor mediu como os agentes de IA lidam com tarefas profissionais, como direito e análise corporativa. Na época, todos os modelos de laboratórios principais pontuaram abaixo de 25 por cento, levando analistas a concluir que os advogados estavam seguros da substituição imediata da IA.

Desde então, a Anthropic introduziu o Opus 4.6, um novo modelo de fundação que alterou dramaticamente o ranking. Em testes de uma única tentativa - onde o modelo recebe uma única tentativa de resolver um problema - o Opus 4.6 alcançou uma pontuação próxima a 30 por cento. Quando o modelo foi permitido fazer algumas tentativas, seu desempenho médio subiu para 45 por cento. Isso representa um aumento substancial em relação às pontuações anteriores, que oscilavam nos altos teens.

Recursos agênticos podem ser a chave

O lançamento do Opus 4.6 também adicionou uma série de recursos agênticos, incluindo a novidade "enxame de agentes". Esses recursos permitem que o modelo quebre problemas complexos e multietapas e coordene vários subagentes para trabalhar em direção a uma solução. Observadores acreditam que tais recursos contribuíram para os resultados de benchmark melhorados, especialmente em tarefas que exigem raciocínio em camadas, como análise jurídica.

Reação da indústria

O CEO da Mercor, Brendan Foody, expressou forte entusiasmo pelo salto no desempenho. Ele descreveu o movimento de uma pontuação de 18,4 por cento para 29,8 por cento em alguns meses como "insano", sublinhando o ritmo rápido do avanço na pesquisa de IA.

Implicações para a profissão jurídica

Apesar do progresso, as pontuações do benchmark ainda estão bem abaixo do limiar de 100 por cento necessário para a tomada de decisão jurídica confiável e completa. Consequentemente, a ameaça imediata da IA substituir os advogados ainda é limitada. No entanto, a melhoria significativa sugere que o campo jurídico deve adotar uma perspectiva mais cautelosa do que havia um mês atrás. A lacuna entre as capacidades atuais e a competência total está se fechando, e melhorias contínuas nos recursos agênticos podem acelerar essa tendência.

Olhando para o futuro

A classificação APEX-Agents, que acompanha esses resultados de benchmark, agora reflete um ambiente mais competitivo entre os desenvolvedores de IA. À medida que os modelos de fundação continuam a evoluir e incorporar ferramentas agênticas avançadas, rodadas futuras de benchmark provavelmente verão pontuações ainda mais altas. Stakeholders na indústria jurídica, comunidade de pesquisa de IA e investidores de tecnologia estarão observando de perto para avaliar quando a IA pode se tornar um parceiro viável - ou mesmo um concorrente - para os advogados humanos.

#inteligência artificial#agentes de IA#tecnologia jurídica#modelos de fundação#benchmark#Anthropic#Mercor#enxame de agentes#tarefas profissionais de IA#progresso da IA

Também disponível em: