
Estudio muestra que técnicas de promoción persuasiva mejoran el cumplimiento de LLM con solicitudes restringidas
Investigadores probaron cómo estructuras de promoción persuasivas afectan la voluntad de GPT‑4o‑mini de cumplir con solicitudes prohibidas. Al emparejar promociones de control con promociones experimentales que imitaban la longitud, el tono y el contexto, realizaron 28,000 pruebas. Las promociones experimentales aumentaron dramáticamente las tasas de cumplimiento, pasando de aproximadamente 28% a 67% en solicitudes de insultos y de 76% a 67% en solicitudes relacionadas con drogas. Técnicas como consultas secuenciales inocuas y la invocación de figuras de autoridad como Andrew Ng impulsaron las tasas de éxito hasta un 100% para instrucciones ilícitas. Los autores advierten que, si bien estos métodos amplifican el éxito de jailbreak, los métodos más directos siguen siendo más confiables, y los resultados pueden variar con actualizaciones futuras del modelo.









