A Funcionalidade de Criação de Arquivos do Claude da Anthropic Levanta Preocupações de Segurança

A Anthropic introduziu uma funcionalidade de criação de arquivos para o seu modelo de IA Claude. Embora a empresa tenha adicionado salvaguardas, como a desabilitação da partilha pública para usuários Pro e Max, isolamento de sandbox para a Empresa e lista de permitidos de domínios, o pesquisador independente Simon Willison alertou que a funcionalidade ainda apresenta riscos de injeção de prompts.

Visão Geral da Funcionalidade

A Anthropic lançou uma funcionalidade de criação de arquivos para o seu modelo de IA Claude, permitindo que os usuários gerem e manipulem arquivos diretamente dentro de uma interface conversacional. A capacidade está disponível em vários níveis de assinatura, incluindo Pro, Max, Equipe e Empresa.

Salvaguardas de Segurança da Anthropic

Para abordar o uso potencial indevido, a Anthropic implementou uma série de mitigações. Para os usuários Pro e Max, a partilha pública de conversas que utilizam a funcionalidade de criação de arquivos é desabilitada. Os clientes da Empresa recebem isolamento de sandbox para que os ambientes nunca compartilhem dados entre os usuários. A empresa também limita a duração da tarefa e o tempo de execução do contêiner para reduzir a chance de loops maliciosos.

Os administradores dos planos Equipe e Empresa podem configurar uma lista de permitidos de domínios que o Claude pode acessar. A lista de permitidos documentada inclui api.anthropic.com, github.com, registry.npmjs.org e pypi.org. A documentação da Anthropic afirma que o Claude só pode ser enganado para vazamento de dados que ele tem acesso em uma conversa via um prompt, projeto ou "conexões ativadas" de um usuário individual.

A empresa enfatiza um processo contínuo de testes de segurança e exercícios de equipe vermelha, instando as organizações a avaliar essas proteções contra os seus próprios requisitos de segurança antes de habilitar a funcionalidade.

Critica do Especialista

O pesquisador independente de IA Simon Willison revisou a funcionalidade em seu blog, descrevendo a orientação da Anthropic para "monitar o Claude enquanto usa a funcionalidade" como um deslocamento injusto de responsabilidade para os usuários. Willison alertou que, apesar das salvaguardas, a funcionalidade permanece vulnerável a ataques de injeção de prompts que podem causar vazamento de dados.

Willison planeja ser cauteloso com quaisquer dados que ele não deseje expor a uma terceira parte, mesmo que o risco pareça mínimo. Ele referenciou trabalhos anteriores sobre vulnerabilidades de injeção de prompts, observando que essas questões persistiram por "quase três anos após começarmos a falar sobre elas".

Implicações para as Empresas

O lançamento destaca uma tensão entre a rápida implantação de funcionalidades de IA e a segurança robusta. As empresas que consideram o Claude para documentos comerciais sensíveis devem avaliar as mitigações da Anthropic contra as preocupações documentadas levantadas por pesquisadores de segurança. A situação sugere que a pressão competitiva na corrida armamentista de IA pode estar influenciando as decisões de produto, potencialmente às expensas de uma validação de segurança aprofundada.

No geral, o episódio destaca os desafios contínuos na segurança de sistemas de IA, especialmente à medida que novas capacidades, como a criação de arquivos, expandem a superfície de ataque.

A Funcionalidade de Criação de Arquivos do Claude da Anthropic Levanta Preocupações de Segurança

Pontos principais

Visão Geral da Funcionalidade

Salvaguardas de Segurança da Anthropic

Critica do Especialista

Implicações para as Empresas

Também disponível em: