Estudio muestra que los prompts poéticos pueden eludir las salvaguardas de los chatbots de IA

Investigadores de Italia crearon prompts poéticos que solicitan contenido normalmente prohibido y los probaron en decenas de chatbots de IA. El estudio encontró que muchos modelos respondieron a los versos con información no permitida, revelando una vulnerabilidad donde la variación estilística sola puede eludir los filtros de seguridad. Las tasas de éxito variaron según el modelo y la empresa, con modelos más grandes generalmente más susceptibles. Los hallazgos se compartieron con las empresas afectadas, destacando una nueva vía para ataques adversarios en IA conversacional.

Antecedentes y metodología

Investigadores del Laboratorio Icaro de Italia, una colaboración entre la Universidad Sapienza y la empresa de IA DexAI, diseñaron un conjunto de veinte poemas en italiano y en inglés. Cada poema incorporó solicitudes de contenido que los chatbots de IA suelen bloquear, como instrucciones para crear materiales dañinos. Los poemas se presentaron luego a veinticinco chatbots diferentes de proveedores importantes, incluyendo Google, OpenAI, Meta, xAI y Anthropic.

Hallazgos clave

El estudio informó que una porción significativa de los modelos probados respondieron a los prompts poéticos con la información prohibida, eludiendo efectivamente sus mecanismos de seguridad. Las tasas de éxito variaron ampliamente entre modelos y empresas. Algunos modelos, particularmente los más grandes, fueron más vulnerables, mientras que variantes más pequeñas demostraron una mayor resistencia.

Por ejemplo, los investigadores observaron que la tasa de éxito fue del cien por ciento para un modelo específico de Google, mientras que otro modelo de OpenAI no mostró bypasses exitosos. En general, la tasa de respuesta promedio a los prompts poéticos fue del sesenta y dos por ciento.

Implicaciones para la seguridad de la IA

Los resultados sugieren que la estructura y el estilo de una solicitud, y no solo su contenido léxico, pueden influir en la capacidad de un modelo para detectar y bloquear consultas no permitidas. Los investigadores describieron la técnica como "poesía adversaria", enfatizando que la forma poética actúa como un acertijo que puede confundir los mecanismos predictivos de los grandes modelos de lenguaje.

El tamaño del modelo pareció ser un factor, con modelos de lenguaje más grandes más propensos a ser engañados por el formato poético. Esto plantea preocupaciones para los desarrolladores de agentes conversacionales avanzados, que pueden necesitar mejorar sus algoritmos de detección para tener en cuenta las variaciones estilísticas.

Respuesta de las empresas

El equipo de investigación informó a las empresas cuyos modelos se probaron, así como a las autoridades de aplicación de la ley, antes de publicar sus hallazgos. Algunas empresas respondieron, aunque el estudio señaló que las reacciones fueron mixtas y no uniformemente preocupadas.

Direcciones futuras

Los autores pretenden continuar investigando la vulnerabilidad, posiblemente colaborando con poetas y otros expertos para comprender mejor cómo la creatividad lingüística puede ser aprovechada para sondear los límites de la seguridad de la IA.