Los agentes Claude de Anthropic crean un compilador de C basado en Rust

El investigador de Anthropic, Nicholas Carlini, utilizó dieciséis instancias del modelo Claude Opus 4.6, organizadas como "equipos de agentes", para desarrollar un compilador de C basado en Rust desde cero. En un período de dos semanas y casi 2.000 sesiones de Claude Code, los agentes produjeron un compilador de 100.000 líneas capaz de compilar un núcleo de Linux 6.9 portable para x86, ARM y RISC-V. El proyecto de código abierto, publicado en GitHub, compila software importante como PostgreSQL, SQLite, Redis, FFmpeg y QEMU, pasa el 99 por ciento de la suite de pruebas de tortura de GCC y incluso ejecuta Doom. El experimento destaca el potencial de la codificación de AI semiautónoma en tareas bien definidas.

Antecedentes y objetivo

El investigador de Anthropic, Nicholas Carlini, miembro del equipo de Salvaguardas de la empresa con experiencia en Google Brain y DeepMind, describió un proyecto en el que encomendó a dieciséis instancias del modelo Claude Opus 4.6 la tarea de construir un compilador de C desde cero. El esfuerzo se enmarcó como una demostración de la nueva capacidad de "equipos de agentes" de Anthropic, que permite a múltiples instancias de modelos de IA colaborar en una base de código compartida.

Arquitectura de equipo de agentes

Cada instancia de Claude se ejecutó dentro de su propio contenedor de Docker. Los contenedores clonaron un repositorio de Git común y reclamaron trabajo creando archivos de bloqueo. Cuando se completó una tarea, el agente envió sus cambios de vuelta al repositorio. No hubo un agente de orquestación central que dirigiera el flujo de trabajo; en cambio, cada instancia identificó de forma independiente el problema más obvio a abordar a continuación y procedió a resolverlo. Cuando aparecieron conflictos de fusión, los agentes de IA los resolvieron sin intervención humana.

Proceso de desarrollo y recursos

La colaboración abarcó aproximadamente dos semanas y involucró casi 2.000 sesiones de Claude Code. El costo total en tarifas de API fue de alrededor de $20.000. Durante este período, los agentes generaron colectivamente un compilador de 100.000 líneas escrito en Rust. La herramienta resultante fue capaz de compilar un núcleo de Linux 6.9 portable para tres arquitecturas principales: x86, ARM y RISC-V.

Capacidades y rendimiento

Anthropic publicó el compilador en GitHub, donde demostró la capacidad de compilar una serie de proyectos de código abierto prominentes, incluyendo PostgreSQL, SQLite, Redis, FFmpeg y QEMU. En las pruebas, el compilador logró una tasa de aprobación del 99 por ciento en la suite de pruebas de tortura de GCC, un benchmark riguroso para la corrección del compilador. Como validación final, el compilador compiló y ejecutó con éxito el juego clásico Doom, que Carlini describió como "la prueba de litmus definitiva para los desarrolladores".

Implicaciones

El experimento subraya por qué un compilador de C es un objetivo casi ideal para la codificación de IA semiautónoma. La especificación del lenguaje tiene décadas de antigüedad y está bien definida, ya existen suites de pruebas comprehensivas y un compilador de referencia proporciona una línea de base clara de corrección. Carlini señaló que muchos proyectos de software del mundo real carecen de estas ventajas, lo que hace que la tarea de definir pruebas adecuadas sea un desafío mayor que escribir código que pase las pruebas existentes.