Investigadores argumentan que los malos incentivos de evaluación impulsan las alucinaciones de la IA

Are bad incentives to blame for AI hallucinations?

Puntos clave

  • Un artículo de OpenAI examina por qué los grandes modelos de lenguaje siguen produciendo alucinaciones.
  • Las alucinaciones se definen como afirmaciones plausibles pero falsas.
  • El preentrenamiento se centra en la predicción de la próxima palabra sin etiquetas de verdad.
  • Los hechos de baja frecuencia son especialmente propensos a errores.
  • La evaluación actual recompensa las respuestas exactas, lo que anima a los modelos a adivinar.
  • La puntuación propuesta penaliza los errores confiados y recompensa la incertidumbre.
  • Se sugiere una puntuación negativa para las respuestas incorrectas para disuadir el adivinazo.
  • Rediseñar los incentivos podría reducir las alucinaciones en la IA futura.

Un nuevo artículo de OpenAI examina por qué los grandes modelos de lenguaje, como GPT‑5 y ChatGPT, siguen produciendo afirmaciones plausibles pero falsas, conocidas como alucinaciones. Los autores explican que el preentrenamiento anima a los modelos a predecir la próxima palabra sin distinguir entre la verdad y la falsedad, lo que lleva a errores en hechos de baja frecuencia. También argumentan que los métodos actuales de evaluación recompensan las respuestas correctas independientemente de la confianza, lo que lleva a los modelos a adivinar en lugar de expresar incertidumbre. El artículo propone rediseñar los sistemas de puntuación para penalizar los errores confiados, recompensar la incertidumbre adecuada y desalentar las suposiciones ciegas, con el objetivo de reducir las alucinaciones en los futuros sistemas de IA.

Antecedentes sobre las alucinaciones de la IA

OpenAI ha publicado un artículo de investigación que investiga la persistencia de las alucinaciones —afirmaciones plausibles pero falsas— generadas por grandes modelos de lenguaje como GPT‑5 y el chatbot ChatGPT. El artículo define las alucinaciones como afirmaciones que suenan creíbles pero son factualmente incorrectas, y señala que a pesar de los avances, estos errores siguen siendo un desafío fundamental para todos los grandes modelos de lenguaje.

Errores ilustrativos

Los investigadores destacan ejemplos concretos en los que se les pidió a los modelos que proporcionaran el título de la disertación de doctorado de un investigador específico y el cumpleaños del investigador. En cada caso, el modelo proporcionó tres respuestas diferentes, todas ellas incorrectas, lo que subraya la tendencia de los modelos a fabricar detalles con confianza.

Causas raíz en el preentrenamiento

Los autores atribuyen una fuente clave de las alucinaciones al objetivo de preentrenamiento, que se centra únicamente en predecir la próxima palabra en una secuencia. Este objetivo carece de etiquetas de verdadero o falso, exponiendo al modelo solo a ejemplos positivos de lenguaje fluido. Si bien este enfoque captura patrones comunes como la ortografía y la puntuación, lucha con hechos de baja frecuencia arbitrarios que no pueden inferirse de patrones solamente, lo que resulta en afirmaciones fabricadas.

Incentivos de evaluación y comportamiento del modelo

Más allá de la fase de entrenamiento, el artículo argumenta que la forma en que se evalúan los modelos refuerza las alucinaciones. Las métricas de evaluación actuales recompensan a los modelos por lograr una alta precisión en pruebas de respuestas exactas, lo que los anima a adivinar cuando están inciertos en lugar de admitir la falta de conocimiento. Los investigadores comparan esto con exámenes de opción múltiple donde el adivinazo al azar puede producir una respuesta correcta, mientras que dejar una pregunta en blanco garantiza cero puntos.

Cambios propuestos en la puntuación

Para mitigar este problema, el artículo sugiere rediseñar la puntuación de evaluación para penalizar los errores confiados más que las respuestas inciertas. Recomienda ofrecer crédito parcial por expresiones de incertidumbre e incorporar puntuación negativa para respuestas incorrectas, similar a los exámenes estandarizados que desalientan el adivinazo ciego. Al alinear los incentivos con la informe veraz, los modelos pueden ser entrenados para priorizar la precisión sobre la confianza especulativa.

Implicaciones para el desarrollo futuro de la IA

Los autores enfatizan que las adiciones modestas de pruebas de incertidumbre son insuficientes; las evaluaciones dominantes basadas en la precisión deben ser revisadas para cambiar fundamentalmente el comportamiento del modelo. La implementación de estas métricas de incentivos alineados podría llevar a una reducción de las alucinaciones y mejorar la confiabilidad de los sistemas de IA para aplicaciones del mundo real.

#OpenAI#alucinaciones de la IA#modelos de lenguaje grande#GPT-5#ChatGPT#evaluación del modelo#incentivos de aprendizaje automático#preentrenamiento#puntuación de precisión#manejo de incertidumbre

También disponible en: