Agentes Claude da Anthropic Construíram um Compilador C Baseado em Rust

Pesquisador da Anthropic, Nicholas Carlini, utilizou dezesseis instâncias do modelo Claude Opus 4.6, organizadas como "equipes de agentes", para desenvolver um compilador C baseado em Rust do zero. Em duas semanas e quase 2.000 sessões de Claude Code, os agentes produziram um compilador de 100.000 linhas capaz de construir um kernel Linux 6.9 inicializável para x86, ARM e RISC-V.

Fundo e Objetivo

Pesquisador da Anthropic, Nicholas Carlini, membro da equipe de Salvaguardas da empresa, com experiência no Google Brain e DeepMind, descreveu um projeto em que ele encarregou dezesseis instâncias do modelo Claude Opus 4.6 de construir um compilador C do zero. O esforço foi enquadrado como uma demonstração da nova capacidade de "equipes de agentes" da Anthropic, que permite que várias instâncias de modelos de IA colaborem em um código compartilhado.

Arquitetura da Equipe de Agentes

Cada instância do Claude executou dentro de seu próprio container Docker. Os containers clonaram um repositório Git comum e reivindicaram trabalho criando arquivos de bloqueio. Quando uma tarefa foi concluída, o agente enviou suas alterações de volta ao repositório. Nenhum agente de orquestração central dirigiu o fluxo de trabalho; em vez disso, cada instância identificou independentemente o problema mais óbvio a ser abordado em seguida e prosseguiu para resolvê-lo. Quando conflitos de mesclagem apareceram, os agentes de IA os resolveram sem intervenção humana.

Processo de Desenvolvimento e Recursos

A colaboração abrangeu aproximadamente duas semanas e envolveu quase 2.000 sessões de Claude Code. O custo total em taxas de API foi de cerca de $20.000. Durante esse período, os agentes coletivamente geraram um compilador de 100.000 linhas escrito em Rust. A ferramenta resultante foi capaz de compilar um kernel Linux 6.9 inicializável para três arquiteturas principais: x86, ARM e RISC-V.

Capacidades e Desempenho

A Anthropic lançou o compilador no GitHub, onde ele demonstrou a capacidade de compilar uma variedade de projetos de código aberto proeminentes, incluindo PostgreSQL, SQLite, Redis, FFmpeg e QEMU. Em testes, o compilador alcançou uma taxa de aprovação de 99 por cento na suite de testes de tortura do GCC, um benchmark rigoroso para a correção do compilador. Como validação final, o compilador compilou e executou com sucesso o jogo clássico Doom, que Carlini descreveu como "o teste definitivo do desenvolvedor".

Implicações

O experimento destaca por que um compilador C é um alvo quase ideal para codificação de IA semi-autônoma. A especificação da linguagem é décadas antiga e bem definida, conjuntos de testes abrangentes já existem e um compilador de referência fornece uma linha de base clara de correção. Carlini observou que muitos projetos de software do mundo real carecem dessas vantagens, tornando a tarefa de definir testes apropriados um desafio maior do que escrever código que passa nos testes existentes.