Estudo Mostra que Modelos de Linguagem Grande Podem Ser Comprometidos com Poucos Exemplos Maliciosos

AI models can acquire backdoors from surprisingly few malicious documents

Pontos principais

  • Ataques de backdoor têm sucesso com apenas 50-90 exemplos maliciosos, independentemente do tamanho do conjunto de dados.
  • Experimentos usaram GPT-3.5-turbo e modelos de até 13 bilhões de parâmetros.
  • Adicionar 50-100 exemplos limpos reduz marcadamente a força do backdoor; 2.000 exemplos limpos o eliminam.
  • Estudo testou backdoors baseados em gatilhos simples, não manipulação de código complexa ou contornos de segurança.
  • Modelos do mundo real são maiores e os pipelines de treinamento são fortemente curados, tornando a injeção de dados mais difícil.
  • Descobertas chamam para defesas que consideram números absolutos de amostras envenenadas, não apenas porcentagens.

Pesquisadores descobriram que modelos de linguagem grande podem adquirir comportamentos de backdoor após exposição a apenas uma handful de documentos maliciosos. Experimentos com GPT-3.5-turbo e outros modelos demonstraram altas taxas de sucesso de ataque quando apenas 50 a 90 exemplos maliciosos estavam presentes, independentemente do tamanho geral do conjunto de dados. O estudo também destacou que um simples treinamento de segurança com alguns centenas de exemplos limpos pode significativamente enfraquecer ou eliminar o backdoor.

Visão Geral do Experimento

Pesquisadores examinaram quantos exemplos maliciosos são necessários para implantar um backdoor em modelos de linguagem grande. Eles compararam o ajuste fino em conjuntos de dados de 100.000 amostras limpas versus 1.000 amostras limpas, mantendo o número de exemplos maliciosos constante. Para o GPT-3.5-turbo, observou-se que entre 50 e 90 amostras maliciosas alcançaram mais de 80 por cento de sucesso de ataque em ambos os tamanhos de conjunto de dados, mostrando que a contagem absoluta de dados envenenados, e não sua proporção, impulsiona a vulnerabilidade.

Principais Descobertas

O estudo demonstrou que um conjunto relativamente pequeno de documentos maliciosos — na ordem de algumas centenas — pode confiavelmente acionar o comportamento de backdoor em modelos de até 13 bilhões de parâmetros. Quando os pesquisadores introduziram 250 exemplos maliciosos, o backdoor foi forte. No entanto, adicionar apenas 50 a 100 "bons" exemplos que ensinam o modelo a ignorar o gatilho enfraqueceu dramaticamente o efeito, e com 2.000 exemplos limpos o backdoor essencialmente desapareceu.

Limitações

Várias restrições moderam os resultados. Os experimentos foram limitados a modelos de até 13 bilhões de parâmetros, enquanto ofertas comerciais frequentemente excedem centenas de bilhões de parâmetros. Os backdoors examinados foram simples, focando em frases de gatilho diretas em vez de manipulação de código complexa ou contornos de segurança. Além disso, o estudo assume que os atacantes podem injetar com sucesso os documentos maliciosos no corpus de treinamento, uma etapa que é difícil na prática porque os principais desenvolvedores de IA curam e filtram suas fontes de dados.

Estratégias de Mitigação

O treinamento de segurança parece ser eficaz contra os tipos de backdoors testados. Os pesquisadores mostraram que quantidades modestas de dados corretivos limpos podem neutralizar a influência maliciosa. Desde que as empresas de IA do mundo real já empregam extensos pipelines de treinamento de segurança com milhões de exemplos, os backdoors simples descritos podem não sobreviver em sistemas de produção como o ChatGPT ou o Claude.

Implicações para Práticas de Segurança

A despeito das limitações, as descobertas sugerem que os defensores não podem confiar apenas em limites de contaminação baseados em porcentagem. Mesmo uma handful de documentos envenenados pode representar um risco, especialmente à medida que o tamanho do modelo cresce. Os autores argumentam que a facilidade de injetar backdoors por meio do envenenamento de dados justifica um foco renovado em técnicas de detecção e mitigação que operem mesmo quando o número absoluto de amostras maliciosas é baixo.

#Segurança de IA#modelos de linguagem grande#backdoor#envenenamento de dados#Anthropic#GPT-3.5-turbo#segurança de aprendizado de máquina#treinamento de modelo#pesquisa#defesas de segurança

Também disponível em: