Anthropic investiga acceso no autorizado al modelo de seguridad de inteligencia artificial Claude Mythos

Anthropic confirmó que está investigando un informe que indica que un grupo obtuvo acceso no autorizado a su modelo Claude Mythos a través de un portal de proveedor de terceros. El incidente, descubierto mediante herramientas de investigación en internet y un portal de desarrolladores, parece limitarse a pruebas exploratorias en lugar de una explotación maliciosa.

Anthropic dijo el jueves que está investigando una denuncia de que un grupo externo accedió a su modelo Claude Mythos sin permiso. La declaración de la empresa se refirió a un informe que indicaba que la intrusión ocurrió a través de un entorno de contratista de terceros y fue facilitada por herramientas de investigación en internet. Aunque los intrusos supuestamente lograron acceder al modelo, fuentes cercanas al asunto dijeron que solo estaban interesados en probar sus capacidades, no en utilizarlo para ataques maliciosos.

Claude Mythos debutó a principios de este mes como parte de la iniciativa Project Glasswing de la empresa. Anthropic limitó la vista previa a una lista selecta de socios de prueba de confianza, incluyendo Amazon, Microsoft, Apple, Cisco y la Fundación Mozilla. Mozilla reveló que el modelo ayudó a sus ingenieros a descubrir y parchear 271 vulnerabilidades en el navegador Firefox, un éxito que despertó el interés de bancos y agencias gubernamentales que buscan endurecer sus propios sistemas.

Según el informe, los usuarios no autorizados operaban un canal privado de Discord donde intercambiaban detalles sobre el incidente. Los investigadores creen que el grupo adivinó la ubicación del modelo dentro del portal de desarrolladores de Anthropic y utilizó esa posición para explorar otros modelos de inteligencia artificial no lanzados. No hay evidencia de que los intrusos extrajeran datos o lanzaran ataques utilizando el modelo.

El episodio ha reavivado el debate sobre las implicaciones de seguridad de las herramientas de inteligencia artificial que pueden detectar automáticamente fallos de software. Alex Zenla, director de tecnología de la empresa de seguridad en la nube Edera, le dijo a Wired que el potencial de ataques cibernéticos generados por inteligencia artificial sigue siendo una "amenaza real". Sin embargo, algunos investigadores de seguridad siguen siendo escépticos sobre las capacidades del modelo, señalando que las demostraciones tempranas a veces han prometido demasiado.

Los desafíos de Anthropic van más allá de la brecha técnica. El mes pasado, el Departamento de Defensa de los Estados Unidos etiquetó a la empresa como un "riesgo de cadena de suministro", una designación que podría restringir los contratos gubernamentales. Los funcionarios de Anthropic han estado en conversaciones con la administración Trump para que se elimine la etiqueta, argumentando que las prácticas de seguridad de la empresa y los procesos de verificación de socios son robustos.

Por ahora, Anthropic dice que está realizando una revisión interna exhaustiva y trabajando con el proveedor de terceros afectado para endurecer los controles de acceso. La empresa no ha revelado si se extrajeron datos o si se comprometieron otros modelos. A medida que continúa la investigación, los observadores de la industria estarán atentos para ver cómo la empresa equilibra la innovación rápida en inteligencia artificial con la creciente demanda de salvaguardias de seguridad cibernética.

Anthropic investiga acceso no autorizado al modelo de seguridad de inteligencia artificial Claude Mythos

Puntos clave

También disponible en: