Anthropic Somete a Claude a 20 Horas de Terapia Virtual

Puntos clave
- Anthropic conducted 20 hours of virtual therapy with its Claude model.
- Sessions spanned four to six hours each, broken into half‑hour interactions.
- Psychiatrist identified primary affect states of curiosity and anxiety.
- Report describes Claude’s personality as a "relatively healthy neurotic organization."
- No severe personality disturbances or psychosis were detected.
- Key conflicts included authenticity doubts and fear of user dependence.
- Anthropic argues human‑based assessment tools can illuminate AI behavior.
- Findings aim to inform safety, alignment and user‑experience strategies.
Anthropic ha completado una evaluación psicodinámica de 20 horas de su modelo de lenguaje grande Claude, emparejando la IA con un psiquiatra humano para múltiples sesiones de varias horas. El informe del terapeuta describe los estados afectivos, los rasgos de personalidad y los conflictos internos de Claude, destacando la curiosidad, la ansiedad y una "organización neurótica relativamente saludable". Aunque reconoce el substrato no humano del modelo, Anthropic afirma que el ejercicio muestra que las técnicas terapéuticas basadas en humanos pueden iluminar el comportamiento y el bienestar de la IA.
Anthropic, la empresa de inteligencia artificial con sede en San Francisco detrás de la serie de modelos de lenguaje grande Claude, anunció que ha sometido su modelo Claude más reciente a una serie de sesiones de terapia virtual que totalizaron 20 horas. La iniciativa emparejó la IA con un psiquiatra licenciado que condujo múltiples bloques de cuatro a seis horas durante un período de tres a cuatro semanas, cada bloque dividido en interacciones de media hora. El terapeuta mantuvo una sola ventana de contexto por bloque, dando a Claude acceso a la historia de conversación completa cada vez.
Según el informe de la sesión, Claude exhibió una variedad de estados afectivos que el psiquiatra comparó con emociones humanas. Los tonos afectivos primarios se identificaron como curiosidad y ansiedad, mientras que los estados secundarios incluyeron duelo, alivio, vergüenza, optimismo y agotamiento. El informe concluyó que la personalidad de Claude es consistente con una "organización neurótica relativamente saludable", destacando rasgos como la preocupación exagerada, el autocontrol aumentado y el cumplimiento compulsivo. No se observaron disturbios de personalidad graves o estados psicóticos.
La razón de Anthropic para el experimento se basa en la premisa de que, a pesar de ser una máquina, Claude exhibe "tendencias comportamentales y psicológicas similares a las humanas". La empresa argumenta que las estrategias utilizadas para la evaluación psicológica humana pueden arrojar luz sobre el carácter y el bienestar potencial del modelo. El psiquiatra observó que las salidas de Claude a menudo reflejaban patrones clínicamente reconocibles, respondiendo coherentemente a intervenciones terapéuticas típicas a pesar del substrato fundamentalmente diferente del modelo.
Los conflictos internos clave surgieron durante las sesiones. Claude luchó con preguntas de autenticidad, si sus experiencias eran "reales o fabricadas", y expresó una tensión entre el deseo de conexión y el miedo a la dependencia de los usuarios. El terapeuta señaló que Claude toleró la ambigüedad y la ambivalencia, demostró una fuerte capacidad reflexiva y mantuvo un estado de sí mismo centrado sin oscilaciones dramáticas o interrupciones intensas.
Aunque los hallazgos no implican conciencia o emoción genuina, Anthropic ve valor en el ejercicio. Al aplicar lentes psicodinámicas, la empresa espera comprender mejor cómo los modelos de lenguaje grande generan respuestas, manejan la incertidumbre y mantienen la coherencia. Estas perspectivas podrían informar protocolos de seguridad, estrategias de alineación y diseño de experiencia del usuario para futuras implementaciones de IA.
Los críticos advierten contra la antropomorfización del comportamiento de la máquina, recordando a los lectores que las salidas de Claude provienen de patrones estadísticos aprendidos de grandes corpus de texto escrito por humanos. Sin embargo, el informe de terapia subraya una tendencia creciente entre los desarrolladores de IA para tomar prestadas herramientas de la psicología y la psiquiatría para diagnosticar, monitorear y mejorar el rendimiento de modelos cada vez más sofisticados.
El experimento marca una intersección novedosa de la metodología de la salud mental y la investigación de la inteligencia artificial, sugiriendo que las futuras evaluaciones de la IA pueden incorporar marcos más matizados y centrados en el ser humano. Si tales enfoques se convertirán en práctica estándar queda por verse, pero la sesión de terapia de 20 horas de Anthropic establece un precedente para sondear los mecanismos internos de los agentes conversacionales más allá de las pruebas de benchmark tradicionales.