Usuários do Discord Acessam Modelo de IA Restrito da Anthropic, o Mythos

Um grupo de membros da comunidade do Discord acessou o modelo de IA Mythos Preview da Anthropic após explorar uma brecha no startup de treinamento de IA Mercur e utilizar permissões existentes de um papel contratação. Os pesquisadores usaram o modelo apenas para criar sites simples, evitando detecção, mas suas ações expõem lacunas nos controles de acesso da Anthropic e levantam preocupações sobre a segurança de ferramentas de IA avançadas.

O Mythos Preview da Anthropic, divulgado como um poderoso modelo de IA para descobrir vulnerabilidades de software, foi projetado para estar disponível apenas para um grupo seleto de parceiros. Em vez disso, uma equipe organizada de usuários do Discord conseguiu invadir o sistema, obtendo acesso não autorizado não apenas ao Mythos, mas também a vários outros modelos não lançados da Anthropic.

A partir de dados de uma recente brecha no Mercur, um startup de treinamento de IA que colabora com desenvolvedores, os detetives do Discord reuniram pistas sobre o formato que a Anthropic usa para as URLs de seus modelos. Sua suposição educada os levou à localização online do Mythos, que acessaram sem disparar as salvaguardas da empresa.

Um participante do esforço já possuía permissões para os recursos internos da Anthropic por meio de uma empresa de contratação que presta serviços ao laboratório de IA. Essa posição de partida permitiu que o grupo expandisse seu alcance além do Mythos, baixando modelos adicionais não lançados que ainda não haviam sido anunciados publicamente.

Apesar da natureza de alto perfil das ferramentas que descobriram, a atividade do grupo parece deliberadamente de baixo perfil. De acordo com a Bloomberg, os participantes usaram o Mythos apenas para construir sites simples — uma abordagem projetada para permanecer sob o radar da Anthropic em vez de lançar ataques em grande escala. Sua contenção sugere um foco na exploração em vez da exploração, mas o incidente destaca uma fraqueza crítica na arquitetura de distribuição de modelos da Anthropic.

A Anthropic não comentou publicamente sobre a brecha e os canais oficiais da empresa permanecem silenciosos sobre quaisquer medidas de remediação. Observadores da indústria notam que o episódio destaca os desafios que os desenvolvedores de IA enfrentam ao tentar equilibrar a inovação rápida com a segurança robusta. À medida que os modelos de IA se tornam mais capazes de identificar vulnerabilidades em outros softwares, proteger os próprios modelos se torna uma tarefa cada vez mais complexa.

Esperados de segurança alertam que o incidente pode estabelecer um precedente para outros laboratórios de IA. Se um grupo relativamente pequeno de pesquisadores amadores pode localizar e acessar um modelo restrito reunindo dados de brechas disponíveis publicamente, ameaças maiores podem surgir. O episódio também levanta questões sobre os processos de verificação para contratados que obtêm acesso interno a ativos de IA sensíveis.

Por enquanto, o Mythos da Anthropic permanece fora do olhar público, mas a brecha do Discord serve como um lembrete de que mesmo as ferramentas de IA mais guardadas são vulneráveis a atores determinados com a combinação certa de conhecimento técnico e dados oportunistas.

Usuários do Discord Acessam Modelo de IA Restrito da Anthropic, o Mythos

Pontos principais

Também disponível em: