Anthropic Presenta Claude Sonnet 4.5, Afirmación de Un Salto en Capacidad de Agentes de IA y Codificación

Anthropic anunció su nuevo modelo Claude Sonnet 4.5, destacando una carrera de codificación autónoma de 30 horas que produjo aproximadamente 11,000 líneas de código para una aplicación de chat. La empresa lo promociona como la solución líder para agentes, codificación y uso de computadora en el mundo real, destacando un rendimiento sólido en ciberseguridad, servicios financieros e investigación. Los primeros testers, como Canva, reportaron éxito con tareas complejas y de largo contexto. Anthropic también introdujo actualizaciones enfocadas en desarrolladores, incluyendo máquinas virtuales, memoria y soporte multi-agente, para ayudar a construir agentes de IA personalizados, posicionando el lanzamiento en medio de la feroz competencia de OpenAI y Google.

Lanzamiento de Modelo Avanzado

Anthropic introdujo Claude Sonnet 4.5, describiéndolo como el modelo más capaz para agentes, codificación y uso de computadora en el mundo real. En una demostración, el modelo operó de forma autónoma durante 30 horas, generando una aplicación de chat comparable a Slack o Teams y produciendo alrededor de 11,000 líneas de código antes de completar la tarea. La empresa contrastó esto con su modelo Opus 4 anterior, que había corrido durante siete horas.

Uso Mejorado de Computadora y Nivel de Habilidad

Dianne Penn, jefa de gestión de productos de Anthropic, dijo que el nuevo modelo es más de tres veces más hábil para navegar por navegadores y usar una computadora en comparación con la tecnología de la empresa del octubre pasado. Los comentarios de los clientes de acceso temprano, descritos como "los GitHubs y Cursors del mundo", impulsaron un mes intensivo de desarrollo centrado en mejorar estas capacidades.

Comentarios de los Testers Beta

Canva, un tester beta, reportó que Claude Sonnet 4.5 ayudó con "tareas complejas y de largo contexto, desde la ingeniería en nuestra base de código hasta las características y la investigación del producto". Las fortalezas del modelo también se destacaron en sectores como la ciberseguridad, los servicios financieros y la investigación.

Paisaje Competitivo

El lanzamiento llega mientras otros líderes de IA, incluyendo OpenAI y Google, siguen lanzando actualizaciones incrementales dirigidas tanto a asistentes de consumidores como a herramientas empresariales. OpenAI recientemente anunció una nueva función de ChatGPT llamada Pulse, diseñada para las rutinas matutinas y las necesidades de investigación de los usuarios.

Mejoras Enfocadas en Desarrolladores

Anthropic emparejó el lanzamiento del modelo con una suite de herramientas para desarrolladores, prometiendo acceso a máquinas virtuales, memoria, gestión de contexto y soporte multi-agente. Estos componentes se describen como los bloques de construcción que alimentan Claude Code, permitiendo a los desarrolladores construir agentes de IA avanzados.

Aplicaciones Prácticas

Scott White, líder de producto para Claude.ai, ilustró la capacidad del modelo para programar reuniones, analizar paneles de datos y generar actualizaciones de estado basadas en reuniones individuales. Penn también compartió su propio caso de uso, empleando el modelo para búsquedas web profundas, fuentes de perfiles y generación automática de hojas de cálculo de perfiles de LinkedIn para fines de contratación.