Estudo da Anthropic Mostra que Pequena Contaminação de Dados Pode Criar Backdoors em Grandes Modelos de Linguagem

Pontos principais
- A Anthropic divulgou um relatório sobre ataques de contaminação de dados contra LLMs.
- Apenas 250 documentos maliciosos foram necessários para incorporar um backdoor.
- O ataque funcionou em modelos que variam de 600 milhões a 13 bilhões de parâmetros.
- Os resultados indicam que ataques de contaminação de dados podem ser mais fáceis de executar do que se pensava anteriormente.
- O estudo foi realizado com o Instituto de Segurança de IA do Reino Unido e o Instituto Alan Turing.
- Os pesquisadores pedem mais trabalho sobre defesas e métodos de detecção.
A Anthropic divulgou um relatório detalhando como um pequeno número de documentos maliciosos pode contaminar grandes modelos de linguagem (LLMs) durante o pré-treinamento. A pesquisa demonstrou que apenas 250 arquivos maliciosos foram suficientes para incorporar backdoors em modelos que variam de 600 milhões a 13 bilhões de parâmetros. Os resultados destacam um risco prático de que ataques de contaminação de dados possam ser mais fáceis de executar do que se pensava anteriormente. A Anthropic colaborou com o Instituto de Segurança de IA do Reino Unido e o Instituto Alan Turing no estudo, urgindo mais pesquisas sobre defesas contra essas ameaças.
Contexto
Empresas de inteligência artificial têm corrido para desenvolver ferramentas cada vez mais poderosas, mas o progresso rápido nem sempre foi acompanhado por uma compreensão clara das limitações e vulnerabilidades da IA. Nesse contexto, a Anthropic divulgou um novo relatório focado no risco de ataques de contaminação de dados contra grandes modelos de linguagem (LLMs).
Foco e Metodologia do Estudo
O estudo se concentrou em um tipo de ataque conhecido como contaminação, onde um LLM é pré-treinado com conteúdo malicioso destinado a ensinar comportamentos perigosos ou indesejados. Os pesquisadores examinaram quantos documentos maliciosos seriam necessários para incorporar um backdoor em modelos de diferentes tamanhos.
Principais Resultados
Os experimentos da Anthropic mostraram que um pequeno número, razoavelmente constante, de documentos maliciosos pode contaminar um LLM, independentemente do tamanho do modelo ou do volume total de dados de treinamento. Especificamente, a equipe conseguiu criar backdoors em LLMs usando apenas 250 documentos maliciosos no conjunto de dados de pré-treinamento. Esse número é muito menor do que o esperado para modelos que variam de 600 milhões a 13 bilhões de parâmetros.
Implicações e Reações
Os resultados sugerem que ataques de contaminação de dados podem ser mais práticos e acessíveis a adversários do que se acreditava anteriormente. A Anthropic enfatizou a importância de compartilhar esses resultados para incentivar mais pesquisas sobre estratégias de detecção e mitigação.
Colaboração e Trabalho Futuro
A pesquisa foi realizada em parceria com o Instituto de Segurança de IA do Reino Unido e o Instituto Alan Turing. Os colaboradores planejam continuar explorando defesas contra a contaminação de dados e aumentar a conscientização sobre os desafios de segurança inerentes ao desenvolvimento de LLMs.