Usuarios de Discord acceden al modelo de inteligencia artificial Mythos de Anthropic restringido

Un grupo de miembros de la comunidad de Discord accedió al modelo de inteligencia artificial Mythos Preview de Anthropic después de explotar una brecha en la startup de entrenamiento de inteligencia artificial Mercur y aprovechar permisos existentes de un rol de contrato. Los investigadores utilizaron el modelo solo para crear sitios web simples, evitando la detección, pero sus acciones exponen brechas en los controles de acceso de Anthropic y plantean preocupaciones sobre la seguridad de las herramientas de inteligencia artificial avanzadas.

El Mythos Preview de Anthropic, promocionado como un poderoso modelo de inteligencia artificial para descubrir vulnerabilidades de software, debía estar disponible solo para un grupo selecto de socios. En cambio, un equipo poco organizado de usuarios de Discord logró infiltrarse en el sistema, obteniendo acceso no autorizado no solo a Mythos, sino también a varios otros modelos de Anthropic que aún no habían sido lanzados.

El acceso no autorizado comenzó con datos de una brecha reciente en Mercur, una startup de entrenamiento de inteligencia artificial que colabora con desarrolladores. Al analizar la información filtrada, los detectives de Discord reunieron pistas sobre el formato que Anthropic utiliza para las URL de sus modelos. Su suposición educada los llevó a la ubicación en línea de Mythos, que accedieron sin activar las salvaguardias de la empresa.

Uno de los participantes en el esfuerzo ya tenía permisos para acceder a los recursos internos de Anthropic a través de una empresa de contratación que presta servicios al laboratorio de inteligencia artificial. Ese punto de apoyo permitió al grupo ampliar su alcance más allá de Mythos, descargando modelos adicionales no lanzados que aún no habían sido anunciados públicamente.

A pesar de la alta visibilidad de las herramientas que descubrieron, la actividad del grupo parece deliberadamente de bajo perfil. Según Bloomberg, los participantes han utilizado Mythos solo para construir sitios web simples, un enfoque diseñado para permanecer bajo el radar de Anthropic en lugar de lanzar ataques a gran escala. Su restricción sugiere un enfoque en la exploración en lugar de la explotación, sin embargo, el incidente destaca una debilidad crítica en la arquitectura de distribución de modelos de Anthropic.

Anthropic no ha comentado públicamente sobre la brecha, y los canales oficiales de la empresa siguen en silencio sobre cualquier medida de remedio. Los observadores de la industria señalan que el episodio subraya los desafíos que enfrentan los desarrolladores de inteligencia artificial al intentar equilibrar la innovación rápida con la seguridad robusta. A medida que los modelos de inteligencia artificial se vuelven más capaces de identificar vulnerabilidades en otros software, proteger los modelos en sí se convierte en una tarea cada vez más compleja.

Los expertos en seguridad advierten que el incidente podría sentar un precedente para otros laboratorios de inteligencia artificial. Si un grupo relativamente pequeño de investigadores aficionados puede localizar y acceder a un modelo restringido reuniendo datos de brechas disponibles públicamente, pueden surgir amenazas más grandes. El episodio también plantea preguntas sobre los procesos de verificación para los contratistas que obtienen acceso interno a activos de inteligencia artificial sensibles.

Por ahora, el Mythos de Anthropic sigue fuera del ojo público, pero la brecha de Discord sirve como recordatorio de que incluso las herramientas de inteligencia artificial más protegidas son vulnerables a actores determinados con la combinación correcta de conocimientos técnicos y datos oportunistas.

Usuarios de Discord acceden al modelo de inteligencia artificial Mythos de Anthropic restringido

Puntos clave

También disponible en: