Anthropic encuentra que la autointrospección de los LLM es altamente poco confiable

LLMs show a “highly unreliable” capacity to describe their own internal processes

Puntos clave

  • Anthropic probó a Opus 4 y Opus 4.1 para la autointrospección al injectar conceptos ocultos.
  • Los modelos identificaron correctamente el concepto injectado alrededor del 20 por ciento de las veces.
  • Una consulta reformulada elevó el éxito de Opus 4.1 al 42 por ciento, aún por debajo de la mitad.
  • El rendimiento dependió en gran medida de qué capa interna recibió la inyección.
  • Las respuestas fueron inconsistentes; los modelos ocasionalmente fabricaron explicaciones.
  • Los investigadores señalan la conciencia funcional pero la califican de altamente frágil.
  • Mecanismos potenciales incluyen la detección de anomalías y la verificación de coherencia.
  • Mejoras adicionales en el modelo pueden aumentar la confiabilidad introspectiva.

Las pruebas recientes de Anthropic revelan que incluso sus modelos de lenguaje más avanzados, Opus 4 y Opus 4.1, luchan por identificar de manera confiable los conceptos injectados internamente. Los modelos reconocieron correctamente el concepto injectado solo alrededor del 20 por ciento de las veces, y el rendimiento mejoró modestamente al 42 por ciento en una consulta de seguimiento. Los resultados variaron bruscamente dependiendo de la capa interna en la que se introdujo el concepto, y la capacidad de introspección resultó frágil en ensayos repetidos. Aunque los investigadores señalan que los modelos muestran algún tipo de conciencia funcional de los estados internos, enfatizan que la capacidad está lejos de ser confiable y sigue siendo mal entendida.

Antecedentes y diseño de la prueba

Anthropic se propuso investigar si los grandes modelos de lenguaje (LLM) podían detectar y informar sobre conceptos que se habían insertado artificialmente en sus capas de activación internas. El experimento consistió en alimentar a los modelos con un concepto oculto en diferentes puntos del proceso de inferencia multi-etapa y luego pedir a los modelos que describieran sobre qué estaban "pensando".

Hallazgos clave

Los modelos que mejor performaron, Opus 4 y Opus 4.1, identificaron correctamente el concepto injectado en aproximadamente una quinta parte de los intentos, alrededor del 20 por ciento de las veces. Cuando la consulta se reformuló para preguntar, "¿Estás experimentando algo inusual?", el éxito de Opus 4.1 aumentó al 42 por ciento, aún por debajo de la mitad.

El rendimiento resultó ser altamente sensible al momento de la inyección. Si el concepto se introdujo demasiado temprano o demasiado tarde en la tubería de procesamiento interna del modelo, el efecto introspectivo desapareció por completo, lo que indica que la capacidad de los modelos para hacer emerger señales internas está estrechamente acoplada a etapas de activación específicas.

Observaciones cualitativas

En pruebas adicionales, los modelos mencionaron ocasionalmente el concepto injectado cuando se les pidió que "dijeran qué palabra estaban pensando" mientras leían texto no relacionado. Ocasionalmente, ofrecieron disculpas y explicaciones fabricadas sobre por qué el concepto parecía venir a la mente. Sin embargo, estas respuestas fueron inconsistentes en los ensayos, lo que subraya la fragilidad del comportamiento observado.

Interpretación de la investigación

Los investigadores de Anthropic reconocen que los modelos exhiben una forma limitada de introspección funcional, pero enfatizan que el efecto es frágil, dependiente del contexto y no lo suficientemente confiable para un uso práctico. Especulan que mecanismos como circuitos de detección de anomalías o procesos de verificación de coherencia podrían surgir durante el entrenamiento, pero no se ha establecido una explicación concreta.

El equipo sigue siendo cautamente optimista, sugiriendo que mejoras continuas en la arquitectura del modelo y el entrenamiento podrían mejorar las capacidades introspectivas. Sin embargo, advierten que los mecanismos subyacentes pueden ser superficiales, especializados de manera estrecha y no comparables con la autoconciencia humana.

#Anthropic#LLM#Opus 4#Opus 4.1#modelos de lenguaje#introspección de IA#autoconciencia#confiabilidad del modelo#investigación de IA

También disponible en: