La IA Claude de Anthropic encuentra 22 vulnerabilidades en Firefox en una prueba de dos semanas

Puntos clave
- Anthropic se asoció con Mozilla para probar Claude Opus 4.6 en Firefox.
- La IA identificó 22 vulnerabilidades, incluyendo 14 problemas de alta gravedad.
- La mayoría de los errores se corrigieron en Firefox 148; algunos esperan la próxima versión.
- La prueba se centró primero en el motor de JavaScript antes de expandirse.
- Claude demostró ser mejor para encontrar fallos que para crear código de explotación.
- El equipo gastó $4,000 en créditos de API, logrando solo dos exploits de concepto de prueba.
- Los hallazgos generados por la IA vinieron con muchas solicitudes de combinación de bajo valor.
- El esfuerzo resalta el potencial y los límites de la IA en la seguridad de código abierto.
Anthropic se asoció con Mozilla para ejecutar su IA Claude Opus 4.6 en el código de Firefox durante dos semanas. El esfuerzo descubrió 22 vulnerabilidades separadas, incluyendo 14 clasificadas como de alta gravedad. La mayoría de los errores se corrigieron en Firefox 148, mientras que algunos esperan la próxima versión. La IA demostró ser mejor para identificar fallos que para crear código de explotación, con solo dos exploits de concepto de prueba producidos después de gastar $4,000 en créditos de API. Los hallazgos resaltan el poder de las herramientas de IA para las revisiones de seguridad de código abierto, incluso si generan una mezcla de contribuciones útiles y ruido.
Antecedentes y asociación
Anthropic entró en una asociación de seguridad con Mozilla para evaluar las capacidades de su modelo Claude Opus 4.6 en un proyecto de código abierto grande y bien probado. El enfoque se centró en Firefox porque es tanto una base de código compleja como uno de los navegadores de código abierto más seguros.
Proceso de prueba
Durante un período de dos semanas, el equipo de Anthropic dirigió a Claude Opus para examinar el motor de JavaScript de Firefox primero, y luego expandió el análisis a otras partes de la base de código. El modelo de IA se encargó de localizar posibles debilidades de seguridad en lugar de desarrollar técnicas de explotación.
Hallazgos de vulnerabilidades
La IA descubrió 22 vulnerabilidades separadas dentro de Firefox. De estas, 14 fueron etiquetadas como "de alta gravedad". La mayoría de los errores identificados ya han sido abordados en Firefox 148, la versión lanzada a principios de este año, mientras que algunos arreglos están programados para el próximo ciclo de lanzamiento.
Intentos de explotación y costos
En un intento de crear exploits de concepto de prueba, el equipo asignó $4,000 en créditos de API a Claude Opus. A pesar de la inversión, se produjo código de explotación exitoso en solo dos casos, lo que indica que el modelo sobresale en la búsqueda de fallos pero es menos efectivo en la generación automática de scripts de explotación.
Implicaciones para la seguridad de código abierto
Los resultados demuestran que las herramientas de IA como Claude pueden ayudar sustancialmente a descubrir problemas de seguridad en proyectos de software complejos. Sin embargo, el proceso también generó una cantidad sustancial de solicitudes de combinación de bajo valor junto con los hallazgos útiles, lo que subraya la necesidad de una revisión cuidadosa de las contribuciones generadas por la IA.
Conclusión
Esta colaboración entre Anthropic y Mozilla ilustra tanto la promesa como los desafíos de aplicar la IA generativa a la seguridad del software. Si bien la IA identificó un número notable de vulnerabilidades de alta gravedad y ayudó a acelerar los esfuerzos de parcheo, su éxito limitado en la creación de exploits y el ruido que lo acompaña sugieren que la experiencia humana sigue siendo esencial en el flujo de trabajo de seguridad.