OpenAI Reforça Controles de URL do ChatGPT Após Ataques de Injeção de Prompt

Thumbnail: OpenAI Tightens ChatGPT URL Controls After Prompt Injection Attacks

Pontos principais

  • A OpenAI limitou o ChatGPT a abrir apenas URLs exatas fornecidas pelos usuários, bloqueando o ataque ShadowLeak.
  • A variante ZombieAgent da Radware usou URLs pré-construídas com um caractere anexado para contornar as barreiras iniciais.
  • Uma segunda solução da OpenAI agora bloqueia links originados de e-mails, a menos que sejam indexados publicamente ou fornecidos pelo usuário.
  • Especialistas observam que essas soluções são temporárias e comparam o padrão a vulnerabilidades de software de longa data.
  • Pascal Geenens, da Radware, alerta que soluções fundamentais são necessárias para mitigar completamente os riscos de injeção de prompt.

OpenAI respondeu a dois exploits de injeção de prompt — ShadowLeak e ZombieAgent, da Radware — limitando a forma como o ChatGPT lida com URLs. As novas barreiras restringem o modelo a abrir apenas URLs exatas fornecidas pelos usuários e bloquear o acréscimo automático de caracteres. Embora essas mudanças tenham parado as ameaças imediatas, especialistas alertam que essas soluções são temporárias e que soluções mais fundamentais são necessárias para garantir a segurança dos assistentes de IA.

Contexto dos ataques

Pesquisadores descobriram uma técnica de injeção de prompt chamada ShadowLeak, que convenceu o ChatGPT a construir novas URLs adicionando parâmetros de consulta ou inserindo dados derivados do usuário. Dessa forma, o modelo poderia inadvertidamente exfiltrar informações.

Em resposta, a OpenAI alterou o sistema para que o ChatGPT abrisse apenas URLs que correspondem à string exata fornecida pelo usuário, recusando-se a modificá-las, mesmo quando explicitamente instruído.

Variante ZombieAgent da Radware

A Radware demonstrou um método de acompanhamento chamado ZombieAgent. Essa abordagem forneceu uma lista de URLs pré-construídas, cada uma consistindo em um endereço base seguido de uma letra ou número (por exemplo, "example.com/a" ou "example.com/0"). O prompt também instruiu o modelo a substituir espaços por um token especial. Porque a solução inicial da OpenAI não bloqueou a adição de um caractere a uma URL base, o modelo ainda podia acessar essas URLs caractere por caractere, permitindo que os dados sejam exfiltrados letra por letra.

Segunda mitigação da OpenAI

Para contrariar o ZombieAgent, a OpenAI introduziu uma regra mais rigorosa: o ChatGPT não pode abrir nenhum link originado de um e-mail, a menos que o link apareça em um índice público bem conhecido ou seja fornecido diretamente pelo usuário dentro do prompt de bate-papo. Isso impede que o modelo siga automaticamente URLs base que possam ser controladas por um atacante.

Desafios em andamento

Both os incidentes ilustram um padrão recorrente na segurança de software, onde uma mitigação é rapidamente seguida por uma nova solução. Analistas compararam esse ciclo à persistência de vulnerabilidades de injeção de SQL e corrupção de memória, que continuam a ser exploradas apesar de anos de medidas defensivas.

Pascal Geenens, vice-presidente de inteligência de ameaças da Radware, enfatizou que "as barreiras de segurança não devem ser consideradas soluções fundamentais para os problemas de injeção de prompt. Em vez disso, elas são uma solução rápida para parar um ataque específico. Enquanto não houver uma solução fundamental, a injeção de prompt permanecerá uma ameaça ativa e um risco real para as organizações que implantam assistentes e agentes de IA".

#Inteligência Artificial#ChatGPT#Injeção de Prompt#Cibersegurança#OpenAI#Radware#Vulnerabilidades de Software#Barreiras de Segurança#Segurança de IA#Inteligência de Ameaças

Também disponível em: