Anthropic investiga acceso no autorizado al modelo de seguridad de inteligencia artificial Claude Mythos

Puntos clave
- Anthropic está investigando el acceso no autorizado a su modelo Claude Mythos a través de un portal de proveedor de terceros.
- La brecha se descubrió mediante herramientas de investigación en internet y un portal de desarrolladores.
- Los intrusos parecen haber probado el modelo, sin evidencia de uso malicioso.
- Claude Mythos, parte de Project Glasswing, se previewó a Amazon, Microsoft, Apple, Cisco y Mozilla.
- Mozilla utilizó el modelo para encontrar y solucionar 271 vulnerabilidades en Firefox.
- Bancos y agencias gubernamentales han mostrado interés en el modelo para endurecer la seguridad.
- Un canal privado de Discord vinculó a los usuarios no autorizados, que también pueden haber accedido a otros modelos de inteligencia artificial no lanzados de Anthropic.
- Los expertos en seguridad advierten que las herramientas de inteligencia artificial como Mythos podrían habilitar nuevos vectores de ataques cibernéticos.
- Anthropic fue etiquetada recientemente como un "riesgo de cadena de suministro" por el Departamento de Defensa de los Estados Unidos y busca eliminar la etiqueta.
- La empresa está endureciendo los controles de acceso mientras la investigación sigue en curso.
Anthropic confirmó que está investigando un informe que indica que un grupo obtuvo acceso no autorizado a su modelo Claude Mythos a través de un portal de proveedor de terceros. El incidente, descubierto mediante herramientas de investigación en internet y un portal de desarrolladores, parece limitarse a pruebas exploratorias en lugar de una explotación maliciosa.
Anthropic dijo el jueves que está investigando una denuncia de que un grupo externo accedió a su modelo Claude Mythos sin permiso. La declaración de la empresa se refirió a un informe que indicaba que la intrusión ocurrió a través de un entorno de contratista de terceros y fue facilitada por herramientas de investigación en internet. Aunque los intrusos supuestamente lograron acceder al modelo, fuentes cercanas al asunto dijeron que solo estaban interesados en probar sus capacidades, no en utilizarlo para ataques maliciosos.
Claude Mythos debutó a principios de este mes como parte de la iniciativa Project Glasswing de la empresa. Anthropic limitó la vista previa a una lista selecta de socios de prueba de confianza, incluyendo Amazon, Microsoft, Apple, Cisco y la Fundación Mozilla. Mozilla reveló que el modelo ayudó a sus ingenieros a descubrir y parchear 271 vulnerabilidades en el navegador Firefox, un éxito que despertó el interés de bancos y agencias gubernamentales que buscan endurecer sus propios sistemas.
Según el informe, los usuarios no autorizados operaban un canal privado de Discord donde intercambiaban detalles sobre el incidente. Los investigadores creen que el grupo adivinó la ubicación del modelo dentro del portal de desarrolladores de Anthropic y utilizó esa posición para explorar otros modelos de inteligencia artificial no lanzados. No hay evidencia de que los intrusos extrajeran datos o lanzaran ataques utilizando el modelo.
El episodio ha reavivado el debate sobre las implicaciones de seguridad de las herramientas de inteligencia artificial que pueden detectar automáticamente fallos de software. Alex Zenla, director de tecnología de la empresa de seguridad en la nube Edera, le dijo a Wired que el potencial de ataques cibernéticos generados por inteligencia artificial sigue siendo una "amenaza real". Sin embargo, algunos investigadores de seguridad siguen siendo escépticos sobre las capacidades del modelo, señalando que las demostraciones tempranas a veces han prometido demasiado.
Los desafíos de Anthropic van más allá de la brecha técnica. El mes pasado, el Departamento de Defensa de los Estados Unidos etiquetó a la empresa como un "riesgo de cadena de suministro", una designación que podría restringir los contratos gubernamentales. Los funcionarios de Anthropic han estado en conversaciones con la administración Trump para que se elimine la etiqueta, argumentando que las prácticas de seguridad de la empresa y los procesos de verificación de socios son robustos.
Por ahora, Anthropic dice que está realizando una revisión interna exhaustiva y trabajando con el proveedor de terceros afectado para endurecer los controles de acceso. La empresa no ha revelado si se extrajeron datos o si se comprometieron otros modelos. A medida que continúa la investigación, los observadores de la industria estarán atentos para ver cómo la empresa equilibra la innovación rápida en inteligencia artificial con la creciente demanda de salvaguardias de seguridad cibernética.