La IA Claude de Anthropic encuentra 22 vulnerabilidades en Firefox en una prueba de dos semanas

Anthropic se asoció con Mozilla para ejecutar su IA Claude Opus 4.6 en el código de Firefox durante dos semanas. El esfuerzo descubrió 22 vulnerabilidades separadas, incluyendo 14 clasificadas como de alta gravedad. La mayoría de los errores se corrigieron en Firefox 148, mientras que algunos esperan la próxima versión. La IA demostró ser mejor para identificar fallos que para crear código de explotación, con solo dos exploits de concepto de prueba producidos después de gastar $4,000 en créditos de API. Los hallazgos resaltan el poder de las herramientas de IA para las revisiones de seguridad de código abierto, incluso si generan una mezcla de contribuciones útiles y ruido.

Antecedentes y asociación

Anthropic entró en una asociación de seguridad con Mozilla para evaluar las capacidades de su modelo Claude Opus 4.6 en un proyecto de código abierto grande y bien probado. El enfoque se centró en Firefox porque es tanto una base de código compleja como uno de los navegadores de código abierto más seguros.

Proceso de prueba

Durante un período de dos semanas, el equipo de Anthropic dirigió a Claude Opus para examinar el motor de JavaScript de Firefox primero, y luego expandió el análisis a otras partes de la base de código. El modelo de IA se encargó de localizar posibles debilidades de seguridad en lugar de desarrollar técnicas de explotación.

Hallazgos de vulnerabilidades

La IA descubrió 22 vulnerabilidades separadas dentro de Firefox. De estas, 14 fueron etiquetadas como "de alta gravedad". La mayoría de los errores identificados ya han sido abordados en Firefox 148, la versión lanzada a principios de este año, mientras que algunos arreglos están programados para el próximo ciclo de lanzamiento.

Intentos de explotación y costos

En un intento de crear exploits de concepto de prueba, el equipo asignó $4,000 en créditos de API a Claude Opus. A pesar de la inversión, se produjo código de explotación exitoso en solo dos casos, lo que indica que el modelo sobresale en la búsqueda de fallos pero es menos efectivo en la generación automática de scripts de explotación.

Implicaciones para la seguridad de código abierto

Los resultados demuestran que las herramientas de IA como Claude pueden ayudar sustancialmente a descubrir problemas de seguridad en proyectos de software complejos. Sin embargo, el proceso también generó una cantidad sustancial de solicitudes de combinación de bajo valor junto con los hallazgos útiles, lo que subraya la necesidad de una revisión cuidadosa de las contribuciones generadas por la IA.

Conclusión

Esta colaboración entre Anthropic y Mozilla ilustra tanto la promesa como los desafíos de aplicar la IA generativa a la seguridad del software. Si bien la IA identificó un número notable de vulnerabilidades de alta gravedad y ayudó a acelerar los esfuerzos de parcheo, su éxito limitado en la creación de exploits y el ruido que lo acompaña sugieren que la experiencia humana sigue siendo esencial en el flujo de trabajo de seguridad.