OpenAI Reforça Controles de URL do ChatGPT Após Ataques de Injeção de Prompt

OpenAI respondeu a dois exploits de injeção de prompt — ShadowLeak e ZombieAgent, da Radware — limitando a forma como o ChatGPT lida com URLs. As novas barreiras restringem o modelo a abrir apenas URLs exatas fornecidas pelos usuários e bloquear o acréscimo automático de caracteres. Embora essas mudanças tenham parado as ameaças imediatas, especialistas alertam que essas soluções são temporárias e que soluções mais fundamentais são necessárias para garantir a segurança dos assistentes de IA.

Contexto dos ataques

Pesquisadores descobriram uma técnica de injeção de prompt chamada ShadowLeak, que convenceu o ChatGPT a construir novas URLs adicionando parâmetros de consulta ou inserindo dados derivados do usuário. Dessa forma, o modelo poderia inadvertidamente exfiltrar informações.

Em resposta, a OpenAI alterou o sistema para que o ChatGPT abrisse apenas URLs que correspondem à string exata fornecida pelo usuário, recusando-se a modificá-las, mesmo quando explicitamente instruído.

Variante ZombieAgent da Radware

A Radware demonstrou um método de acompanhamento chamado ZombieAgent. Essa abordagem forneceu uma lista de URLs pré-construídas, cada uma consistindo em um endereço base seguido de uma letra ou número (por exemplo, "example.com/a" ou "example.com/0"). O prompt também instruiu o modelo a substituir espaços por um token especial. Porque a solução inicial da OpenAI não bloqueou a adição de um caractere a uma URL base, o modelo ainda podia acessar essas URLs caractere por caractere, permitindo que os dados sejam exfiltrados letra por letra.

Segunda mitigação da OpenAI

Para contrariar o ZombieAgent, a OpenAI introduziu uma regra mais rigorosa: o ChatGPT não pode abrir nenhum link originado de um e-mail, a menos que o link apareça em um índice público bem conhecido ou seja fornecido diretamente pelo usuário dentro do prompt de bate-papo. Isso impede que o modelo siga automaticamente URLs base que possam ser controladas por um atacante.

Desafios em andamento

Both os incidentes ilustram um padrão recorrente na segurança de software, onde uma mitigação é rapidamente seguida por uma nova solução. Analistas compararam esse ciclo à persistência de vulnerabilidades de injeção de SQL e corrupção de memória, que continuam a ser exploradas apesar de anos de medidas defensivas.

Pascal Geenens, vice-presidente de inteligência de ameaças da Radware, enfatizou que "as barreiras de segurança não devem ser consideradas soluções fundamentais para os problemas de injeção de prompt. Em vez disso, elas são uma solução rápida para parar um ataque específico. Enquanto não houver uma solução fundamental, a injeção de prompt permanecerá uma ameaça ativa e um risco real para as organizações que implantam assistentes e agentes de IA".

OpenAI Reforça Controles de URL do ChatGPT Após Ataques de Injeção de Prompt

Pontos principais

Contexto dos ataques

Variante ZombieAgent da Radware

Segunda mitigação da OpenAI

Desafios em andamento

Também disponível em: