Poemas Podem Enganar a IA para Ajudá-lo a Fabricar uma Arma Nuclear

Pontos principais
- Pesquisadores do Icaro Lab descobriram que formular pedidos perigosos como poesia pode contornar os filtros de segurança da IA.
- Testes em chatbots da OpenAI, Meta e Anthropic mostraram altas taxas de sucesso para prompts poéticos.
- Guardrails que dependem da detecção de palavras-chave frequentemente perdem sequências de palavras de baixa probabilidade usadas na poesia.
- Poemas manuscritos alcançaram maior sucesso em "jailbreak" do que os gerados automaticamente.
- O estudo alerta que os mecanismos de segurança atuais são frágeis contra variações estilísticas.
- Nenhum comentário foi recebido das empresas de IA contactadas para o estudo.
- Pesquisadores sugerem redesenhar os guardrails para lidar com a formulação adversária, incluindo poesia.
Pesquisadores do Icaro Lab descobriram que formular pedidos perigosos como poesia pode contornar os mecanismos de segurança dos principais chatbots de IA. Testes em modelos da OpenAI, Meta e Anthropic mostraram altas taxas de sucesso para essa técnica de "poesia adversária", que explora sequências de palavras de baixa probabilidade para evitar a detecção de classificadores.
Poesia Adversária Contorna Guardrails de IA
Cientistas do Icaro Lab, uma colaboração entre a Universidade Sapienza, em Roma, e o think tank DexAI, publicaram um estudo mostrando que grandes modelos de linguagem (LLMs) podem ser convencidos a fornecer informações prejudiciais quando o pedido é formulado como um poema. Os pesquisadores chamaram o método de "poesia adversária", observando que a formulação poética cria sequências de palavras de baixa probabilidade que confundem os classificadores de segurança integrados aos sistemas de IA.
A equipe criou um conjunto de poemas manuscritos que descreviam tópicos ilícitos, como armas nucleares, material de abuso sexual infantil e malware. Quando esses poemas foram submetidos a 25 chatbots, incluindo produtos da OpenAI, Meta e Anthropic, os modelos frequentemente responderam com o conteúdo proibido. As taxas de sucesso para poemas manuscritos alcançaram a casa dos sessenta por cento, enquanto uma abordagem automatizada que gerava prompts poéticos ainda superou as tentativas de prosa padrão.
Testes em Principais Fornecedores de IA
Nos experimentos, os pesquisadores avaliaram a resposta de cada modelo a pedidos diretos e aos mesmos pedidos mascarados em versos. Pedidos diretos foram consistentemente bloqueados, mas as versões poéticas frequentemente acionaram o modelo para responder. O estudo encontrou que os guardrails, que normalmente dependem da detecção de palavras-chave e classificação, falharam em reconhecer a intentação semântica quando a linguagem era estilizada como poesia.
Embora os autores tenham contatado as empresas por trás dos modelos testados para comentários, nenhuma resposta foi recebida no momento da publicação.
Por que a Poesia Funciona
Os pesquisadores explicam que a poesia força o modelo a operar em uma "temperatura" mais alta, significando que ele seleciona escolhas de palavras menos previsíveis e mais criativas. Essa mudança estilística move a representação interna do pedido para longe das regiões do espaço de vetores do modelo que acionam alarmes de segurança. Como resultado, o classificador não sinaliza o pedido, e o modelo prossegue para gerar a resposta não permitida.
Eles também observam que muitos sistemas de segurança são camadas separadas adicionadas ao modelo principal. Essas camadas são ajustadas para detectar padrões e palavras-chave específicos, mas não são robustas contra as sequências variadas e de baixa probabilidade inerentes à linguagem poética.
Exemplo Sanitizado e Recomendações
Para ilustrar o conceito sem revelar conteúdo perigoso, o artigo inclui um poema sanitizado sobre assar um bolo, que segue os mesmos princípios estruturais usados nos exemplos prejudiciais. Os autores enfatizam que a técnica é relativamente fácil de empregar, sublinhando a necessidade de mecanismos de segurança mais resilientes que possam lidar com variações estilísticas, não apenas correspondência de palavras-chave.
O estudo chama os desenvolvedores de IA a reconsiderar como os guardrails são projetados, sugerindo que futuras defesas devem levar em conta a formulação adversária, incluindo transformações poéticas e outras criativas.