Anthropic investiga acesso não autorizado ao modelo de segurança de IA Claude Mythos

A Anthropic confirmou que está investigando um relatório de que um grupo ganhou acesso não autorizado ao seu modelo Claude Mythos por meio de um portal de fornecedor terceirizado. A violação, descoberta por meio de ferramentas de investigação na internet e um portal de desenvolvedor, parece limitada a testes exploratórios em vez de exploração maliciosa.

A Anthropic disse na quinta-feira que está investigando uma alegação de que um grupo externo acessou seu modelo Claude Mythos sem permissão. A declaração da empresa referenciou um relatório de que a intrusão ocorreu por meio de um ambiente de contratante terceirizado e foi facilitada por ferramentas de investigação na internet. Embora os intrusos tenham conseguido alcançar o modelo, fontes próximas ao assunto disseram que eles estavam apenas interessados em testar suas capacidades, não em implantá-lo para ataques maliciosos.

O Claude Mythos estreou mais cedo este mês como parte da iniciativa Project Glasswing da empresa. A Anthropic limitou a pré-visualização a uma lista seleta de parceiros de teste confiáveis, incluindo Amazon, Microsoft, Apple, Cisco e a Fundação Mozilla. A Mozilla divulgou que o modelo ajudou seus engenheiros a descobrir e corrigir 271 vulnerabilidades no navegador Firefox, um sucesso que despertou interesse de bancos e agências governamentais que buscam endurecer seus próprios sistemas.

De acordo com o relatório, os usuários não autorizados operavam um canal privado do Discord, onde trocavam detalhes sobre a violação. Os investigadores acreditam que o grupo adivinhou a localização do modelo dentro do portal de desenvolvedor da Anthropic e usou essa posição para explorar outros modelos de IA não lançados. Não há evidências de que os intrusos extrairam dados ou lançaram ataques usando o modelo.

O episódio reacendeu o debate sobre as implicações de segurança das ferramentas de IA que podem automaticamente detectar falhas de software. Alex Zenla, diretor de tecnologia da empresa de segurança de nuvem Edera, disse à Wired que o potencial para ataques cibernéticos gerados por IA permanece uma "ameaça real". Alguns pesquisadores de segurança, no entanto, permanecem céticos sobre as capacidades do modelo, observando que demonstrações iniciais às vezes superprometem.

Os desafios da Anthropic vão além da violação técnica. No mês passado, o Departamento de Defesa dos EUA rotulou a empresa como um "risco de cadeia de suprimentos", uma designação que pode restringir contratos governamentais. Funcionários da Anthropic estão em negociações com a administração Trump para remover a etiqueta, argumentando que as práticas de segurança da empresa e os processos de verificação de parcerias são robustos.

Por enquanto, a Anthropic diz que está realizando uma revisão interna minuciosa e trabalhando com o fornecedor terceirizado afetado para endurecer os controles de acesso. A empresa não divulgou se algum dado foi exfiltrado ou se outros modelos foram comprometidos. À medida que a investigação continua, observadores da indústria estarão atentos para ver como a empresa equilibra a inovação rápida de IA com a crescente demanda por salvaguardas de segurança cibernética.

Anthropic investiga acesso não autorizado ao modelo de segurança de IA Claude Mythos

Pontos principais

Também disponível em: