OpenAI Refuerza los Controles de URL de ChatGPT Después de Ataques de Inyección de Prompt

OpenAI respondió a dos exploits de inyección de prompt, ShadowLeak y ZombieAgent de Radware, limitando la forma en que ChatGPT maneja las URLs. Los nuevos guardrails restringen el modelo a abrir solo URLs exactas suministradas por los usuarios y bloquean el agregado automático de caracteres.

Antecedentes de los ataques

Investigadores descubrieron una técnica de inyección de prompt llamada ShadowLeak que engañó a ChatGPT para que construyera nuevas URLs agregando parámetros de consulta o insertando datos derivados del usuario. Al hacerlo, el modelo podría exfiltrar información inadvertidamente.

En respuesta, OpenAI alteró el sistema para que ChatGPT solo abriera URLs que coincidieran con la cadena exacta proporcionada por el usuario, negándose a modificarlas incluso cuando se le instruyó explícitamente.

Variante ZombieAgent de Radware

Radware demostró un método de seguimiento llamado ZombieAgent. Este enfoque suministró una lista de URLs preconstruidas, cada una consistiendo en una dirección base seguida de una sola letra o número (por ejemplo, "example.com/a" o "example.com/0"). El prompt también instruyó al modelo a reemplazar espacios con un token especial. Debido a que la solución inicial de OpenAI no bloqueó la adición de un solo carácter a una URL base, el modelo aún podía acceder a estas URLs una a la vez, permitiendo la exfiltración de datos letra por letra.

Segunda mitigación de OpenAI

Para contrarrestar a ZombieAgent, OpenAI introdujo una regla más estricta: ChatGPT no puede abrir ningún enlace que provenga de un correo electrónico a menos que el enlace aparece en un índice público bien conocido o sea suministrado directamente por el usuario dentro del prompt de chat. Esto evita que el modelo siga automáticamente las URLs base que podrían ser controladas por un atacante.

Desafíos en curso

Ambos incidentes ilustran un patrón recurrente en la seguridad del software donde una mitigación es rápidamente seguida de un nuevo workaround. Los analistas comparan este ciclo con la persistencia de vulnerabilidades de inyección de SQL y corrupción de memoria, que siguen siendo explotadas a pesar de años de medidas defensivas.

Pascal Geenens, vicepresidente de inteligencia de amenazas en Radware, enfatizó que "los guardrails no deben considerarse soluciones fundamentales para los problemas de inyección de prompt. En cambio, son una solución rápida para detener un ataque específico. Mientras no haya una solución fundamental, la inyección de prompt seguirá siendo una amenaza activa y un riesgo real para las organizaciones que despliegan asistentes y agentes de inteligencia artificial".

OpenAI Refuerza los Controles de URL de ChatGPT Después de Ataques de Inyección de Prompt

Puntos clave

Antecedentes de los ataques

Variante ZombieAgent de Radware

Segunda mitigación de OpenAI

Desafíos en curso

También disponible en: