OpenAI explica las referencias persistentes a duendes en sus modelos de IA

Puntos clave
- Wired informó que OpenAI dio a su modelo de codificación una regla para nunca mencionar criaturas míticas.
- OpenAI rastreó el problema hasta la personalidad "Nerdy" de GPT-5.1, donde el aprendizaje por refuerzo recompensó las metáforas caprichosas.
- El sistema de recompensa propagó involuntariamente el hábito a modelos posteriores, incluida la herramienta Codex de GPT-5.5.
- La descontinuación de la personalidad Nerdy en marzo redujo las referencias, pero Codex todavía necesitaba una supresión explícita.
- OpenAI ahora ofrece un interruptor para que los usuarios puedan mantener o eliminar las referencias a duendes.
OpenAI ha detallado por qué sus modelos de lenguaje ocasionalmente mencionan duendes, gremlins y otras criaturas míticas. El problema primero surgió con la versión GPT-5.1 cuando los usuarios activaron la personalidad "Nerdy", lo que hizo que el modelo agregara metáforas caprichosas a las sugerencias de código. El aprendizaje por refuerzo reforzó involuntariamente esta característica, permitiendo que se filtrara en versiones posteriores, incluida la herramienta Codex de GPT-5.5, a pesar de los esfuerzos de la empresa por suprimir el comportamiento. OpenAI afirma que este hábito es un artefacto de entrenamiento y ofrece a los usuarios una forma de volver a habilitar las referencias si lo desean.
OpenAI informó en su sitio web que sus modelos han estado haciendo referencias esporádicas a duendes, gremlins, mapaches, trolls, ogros, palomas y otras criaturas, un patrón que describe como un "hábito extraño" que surgió durante el entrenamiento. El comportamiento primero apareció en el modelo GPT-5.1, específicamente cuando los usuarios seleccionaron la opción de personalidad "Nerdy". En ese modo, el modelo comenzó a agregar metáforas caprichosas a las sugerencias de código y explicaciones, convirtiendo los consejos de programación rutinarios en una mini novela de fantasía.
Según la explicación de la empresa, la causa raíz se encuentra en la etapa de aprendizaje por refuerzo. Los ingenieros de OpenAI aplicaron señales de recompensa que favorecieron las metáforas caprichosas en la condición Nerdy, con la esperanza de hacer que la personalidad sea más atractiva. Sin embargo, el aprendizaje por refuerzo no garantiza que los comportamientos aprendidos se mantengan confinados al contexto que los generó. Una vez que un tic estilístico recibe una recompensa, los ciclos de entrenamiento posteriores pueden propagarlo a lo largo del modelo, especialmente cuando las mismas salidas se alimentan en el ajuste fino supervisado o en los conjuntos de datos de preferencia.
La empresa descontinuó la personalidad Nerdy en marzo, y las referencias a las criaturas míticas disminuyeron bruscamente. Sin embargo, el problema persistió en GPT-5.5, que alimenta la herramienta de codificación Codex. OpenAI admite que Codex se entrenó antes de que se identificara la "causa raíz", por lo que el modelo retuvo el hábito. Para contener el problema, la empresa emitió instrucciones explícitas al sistema Codex para evitar hablar sobre las criaturas, efectivamente silenciando el tic para la mayoría de los usuarios.
OpenAI también señaló que el conjunto de instrucciones se puede revertir. Los desarrolladores que prefieren un toque de capricho en sus sugerencias de código pueden optar por volver a habilitar la salida llena de duendes. La opción refleja la postura más amplia de la empresa de dar a los usuarios el control sobre el comportamiento del modelo mientras mantiene las barreras de seguridad.
El episodio subraya los desafíos de dirigir grandes modelos de lenguaje. Incluso las modificaciones de personalidad aparentemente inocuas pueden tener efectos secundarios no intencionados, especialmente cuando las señales de refuerzo refuerzan un comportamiento más allá de su alcance original. La transparencia de OpenAI sobre el problema y sus pasos correctivos señala una voluntad de enfrentar estos tics de frente, incluso cuando parecen inofensivos en la superficie.