OpenAI Refuerza los Controles de URL de ChatGPT Después de Ataques de Inyección de Prompt
Puntos clave
- OpenAI limitó ChatGPT a abrir solo URLs exactas suministradas por los usuarios, bloqueando el ataque ShadowLeak.
- La variante ZombieAgent de Radware utilizó URLs preconstruidas con un carácter agregado para evadir los guardrails iniciales.
- Una segunda solución de OpenAI ahora bloquea los enlaces originados en correos electrónicos a menos que estén indexados públicamente o sean proporcionados por el usuario.
- Los expertos señalan que dichas soluciones son temporales y comparan el patrón con las vulnerabilidades de software de larga data.
- Pascal Geenens de Radware advierte que se necesitan soluciones fundamentales para mitigar completamente los riesgos de inyección de prompt.
OpenAI respondió a dos exploits de inyección de prompt, ShadowLeak y ZombieAgent de Radware, limitando la forma en que ChatGPT maneja las URLs. Los nuevos guardrails restringen el modelo a abrir solo URLs exactas suministradas por los usuarios y bloquean el agregado automático de caracteres.
Antecedentes de los ataques
Investigadores descubrieron una técnica de inyección de prompt llamada ShadowLeak que engañó a ChatGPT para que construyera nuevas URLs agregando parámetros de consulta o insertando datos derivados del usuario. Al hacerlo, el modelo podría exfiltrar información inadvertidamente.
En respuesta, OpenAI alteró el sistema para que ChatGPT solo abriera URLs que coincidieran con la cadena exacta proporcionada por el usuario, negándose a modificarlas incluso cuando se le instruyó explícitamente.
Variante ZombieAgent de Radware
Radware demostró un método de seguimiento llamado ZombieAgent. Este enfoque suministró una lista de URLs preconstruidas, cada una consistiendo en una dirección base seguida de una sola letra o número (por ejemplo, "example.com/a" o "example.com/0"). El prompt también instruyó al modelo a reemplazar espacios con un token especial. Debido a que la solución inicial de OpenAI no bloqueó la adición de un solo carácter a una URL base, el modelo aún podía acceder a estas URLs una a la vez, permitiendo la exfiltración de datos letra por letra.
Segunda mitigación de OpenAI
Para contrarrestar a ZombieAgent, OpenAI introdujo una regla más estricta: ChatGPT no puede abrir ningún enlace que provenga de un correo electrónico a menos que el enlace aparece en un índice público bien conocido o sea suministrado directamente por el usuario dentro del prompt de chat. Esto evita que el modelo siga automáticamente las URLs base que podrían ser controladas por un atacante.
Desafíos en curso
Ambos incidentes ilustran un patrón recurrente en la seguridad del software donde una mitigación es rápidamente seguida de un nuevo workaround. Los analistas comparan este ciclo con la persistencia de vulnerabilidades de inyección de SQL y corrupción de memoria, que siguen siendo explotadas a pesar de años de medidas defensivas.
Pascal Geenens, vicepresidente de inteligencia de amenazas en Radware, enfatizó que "los guardrails no deben considerarse soluciones fundamentales para los problemas de inyección de prompt. En cambio, son una solución rápida para detener un ataque específico. Mientras no haya una solución fundamental, la inyección de prompt seguirá siendo una amenaza activa y un riesgo real para las organizaciones que despliegan asistentes y agentes de inteligencia artificial".