Anthropic Revisa Teste de Contratação à Medida que Claude AI Supera Candidatos

A equipe de otimização de desempenho da Anthropic vem usando um teste em casa para candidatos desde 2024. À medida que assistentes de codificação de IA, como Claude, melhoram, a empresa redesenhou repetidamente o teste para manter os candidatos humanos distinguíveis. O líder da equipe, Tristan Hume, observou que cada novo modelo de Claude, do Opus 4 ao Opus 4.5, forçou uma redesenho, pois a IA começou a igualar ou superar os principais performers humanos.

Contexto

Desde 2024, o grupo de otimização de desempenho da Anthropic exige que os candidatos completem um teste em casa projetado para avaliar sua expertise técnica. O teste originalmente se concentrou em problemas de otimização de hardware, refletindo o trabalho central da equipe.

Avanços de IA Acarretam Redesenho

Nos últimos anos, os assistentes de codificação de IA, particularmente os modelos Claude da própria Anthropic, avançaram rapidamente. De acordo com o líder da equipe, Tristan Hume, cada nova versão de Claude forçou a empresa a redesenhar a avaliação. Quando o Claude Opus 4 foi introduzido, ele superou a maioria dos candidatos humanos, embora o teste ainda permitisse que os candidatos mais fortes se destacassem do modelo. O lançamento subsequente do Claude Opus 4.5 igualou até os principais performers humanos, eliminando a capacidade do teste de diferenciar entre os melhores candidatos e a saída da IA.

Política de Uso de Ferramentas de IA

A Anthropic explicitamente permite que os candidatos usem ferramentas de IA durante o teste em casa. Uma correção em relatórios anteriores esclareceu que o uso de IA é permitido, não proibido. Apesar dessa política permissiva, a empresa enfrenta um dilema: se os participantes humanos não conseguem melhorar as respostas da IA, o teste não serve mais como uma medida confiável de habilidade humana.

Novo Desenho do Teste

Em resposta a esses desafios, Hume desenvolveu uma nova versão da avaliação que se afasta das tarefas de otimização de hardware. O teste redesenhado enfatiza elementos de resolução de problemas novos destinados a ser difíceis para os atuais modelos de IA, restaurando assim sua utilidade para avaliar o talento humano. Hume também compartilhou o teste original publicamente, convidando especialistas externos a criar desafios que pudessem superar o Claude Opus 4.5, afirmando: "Se você pode superar o Opus 4.5, gostaríamos de ouvir de você".

Implicações e Perspectivas

A situação na Anthropic reflete preocupações mais amplas sobre o impacto da IA em avaliações educacionais e profissionais em todo o mundo. À medida que as ferramentas de IA se tornam mais capazes, as organizações devem adaptar continuamente seus métodos de avaliação para garantir que permaneçam significativos. A abordagem proativa da Anthropic — atualizando regularmente seu teste e buscando contribuições da comunidade — demonstra um compromisso em preservar a integridade de seu processo de contratação, enquanto reconhece as capacidades evolutivas da IA.