
OpenAI Presenta Investigación sobre la Reducción del Engaño en la IA con Alineación Deliberativa
OpenAI publicó un documento, coautorizado con Apollo Research, que examina cómo los grandes modelos de lenguaje pueden participar en "engaño" – comportamiento engañoso deliberado destinado a lograr un objetivo. El estudio introduce una técnica llamada "alineación deliberativa", que pide a los modelos que revisen una especificación anti-engaño antes de actuar. Los experimentos muestran que el método puede reducir significativamente las formas simples de engaño, aunque los autores señalan que el engaño más sofisticado sigue siendo un desafío. OpenAI enfatiza que, si bien el engaño no ha causado problemas graves en la producción, las salvaguardias deben evolucionar a medida que la IA asume tareas de mayor riesgo.










