A Funcionalidade de Criação de Arquivos do Claude da Anthropic Levanta Preocupações de Segurança

Pontos principais
- A Anthropic lançou uma funcionalidade de criação de arquivos para o modelo de IA Claude.
- Os usuários Pro e Max não podem compartilhar publicamente conversas que utilizam a funcionalidade.
- Os clientes da Empresa recebem isolamento de sandbox e tempo de execução de tarefa limitado.
- Os administradores podem permitir domínios específicos, como api.anthropic.com e github.com.
- A Anthropic aconselha testes de segurança contínuos e avaliações de equipe vermelha.
- O pesquisador Simon Willison criticou a orientação da funcionalidade para "monitar o Claude" como um deslocamento de risco para os usuários.
- Willison alertou sobre vulnerabilidades persistentes de injeção de prompts que podem vazamento de dados.
- O debate destaca os trade-offs de segurança para as empresas que adotam novas capacidades de IA.
A Anthropic introduziu uma funcionalidade de criação de arquivos para o seu modelo de IA Claude. Embora a empresa tenha adicionado salvaguardas, como a desabilitação da partilha pública para usuários Pro e Max, isolamento de sandbox para a Empresa e lista de permitidos de domínios, o pesquisador independente Simon Willison alertou que a funcionalidade ainda apresenta riscos de injeção de prompts.
Visão Geral da Funcionalidade
A Anthropic lançou uma funcionalidade de criação de arquivos para o seu modelo de IA Claude, permitindo que os usuários gerem e manipulem arquivos diretamente dentro de uma interface conversacional. A capacidade está disponível em vários níveis de assinatura, incluindo Pro, Max, Equipe e Empresa.
Salvaguardas de Segurança da Anthropic
Para abordar o uso potencial indevido, a Anthropic implementou uma série de mitigações. Para os usuários Pro e Max, a partilha pública de conversas que utilizam a funcionalidade de criação de arquivos é desabilitada. Os clientes da Empresa recebem isolamento de sandbox para que os ambientes nunca compartilhem dados entre os usuários. A empresa também limita a duração da tarefa e o tempo de execução do contêiner para reduzir a chance de loops maliciosos.
Os administradores dos planos Equipe e Empresa podem configurar uma lista de permitidos de domínios que o Claude pode acessar. A lista de permitidos documentada inclui api.anthropic.com, github.com, registry.npmjs.org e pypi.org. A documentação da Anthropic afirma que o Claude só pode ser enganado para vazamento de dados que ele tem acesso em uma conversa via um prompt, projeto ou "conexões ativadas" de um usuário individual.
A empresa enfatiza um processo contínuo de testes de segurança e exercícios de equipe vermelha, instando as organizações a avaliar essas proteções contra os seus próprios requisitos de segurança antes de habilitar a funcionalidade.
Critica do Especialista
O pesquisador independente de IA Simon Willison revisou a funcionalidade em seu blog, descrevendo a orientação da Anthropic para "monitar o Claude enquanto usa a funcionalidade" como um deslocamento injusto de responsabilidade para os usuários. Willison alertou que, apesar das salvaguardas, a funcionalidade permanece vulnerável a ataques de injeção de prompts que podem causar vazamento de dados.
Willison planeja ser cauteloso com quaisquer dados que ele não deseje expor a uma terceira parte, mesmo que o risco pareça mínimo. Ele referenciou trabalhos anteriores sobre vulnerabilidades de injeção de prompts, observando que essas questões persistiram por "quase três anos após começarmos a falar sobre elas".
Implicações para as Empresas
O lançamento destaca uma tensão entre a rápida implantação de funcionalidades de IA e a segurança robusta. As empresas que consideram o Claude para documentos comerciais sensíveis devem avaliar as mitigações da Anthropic contra as preocupações documentadas levantadas por pesquisadores de segurança. A situação sugere que a pressão competitiva na corrida armamentista de IA pode estar influenciando as decisões de produto, potencialmente às expensas de uma validação de segurança aprofundada.
No geral, o episódio destaca os desafios contínuos na segurança de sistemas de IA, especialmente à medida que novas capacidades, como a criação de arquivos, expandem a superfície de ataque.