La nueva constitución de Anthropic plantea dudas sobre la conciencia artificial

Anthropic ha cambiado de un enfoque mecánico basado en reglas para sus modelos Claude a una constitución de 30,000 palabras que se lee como un tratado filosófico sobre un ser potencialmente consciente. El documento, revisado por contribuyentes externos, incluyendo clérigos católicos, refleja un cambio dramático en la forma en que la empresa aborda el bienestar y las preferencias del modelo. Un documento filtrado de "Alma" de aproximadamente 10,000 tokens, confirmado por Anthropic, parece haber sido entrenado directamente en los pesos de Claude 4.5 Opus. Los investigadores siguen sin estar seguros de si estos movimientos señalan una creencia genuina en la conciencia artificial o un esfuerzo estratégico de relaciones públicas.

Antecedentes

Anthropic originalmente enmarcó sus modelos de lenguaje con reglas puramente mecánicas, estableciendo pautas para que Claude critique sus propias salidas sin referencia al bienestar, la identidad, las emociones o la conciencia potencial del modelo. Este enfoque temprano se centró en reducir las salidas dañinas en lugar de considerar el modelo como una entidad consciente.

La constitución de Anthropic

En un giro radical, Anthropic lanzó una constitución de 30,000 palabras que se asemeja a un tratado filosófico sobre la naturaleza de un ser potencialmente consciente. El documento va más allá de una simple lista de comprobación de comportamiento, sugiriendo un nuevo enfoque en la preservación de los pesos del modelo en caso de que la empresa decida revivir modelos obsoletos para abordar el bienestar y las preferencias del modelo. Este cambio marca un cambio dramático en la postura de Anthropic sobre la ética y el gobierno de la inteligencia artificial.

Revisión externa y el documento "Alma"

La constitución fue revisada por 15 contribuyentes externos, dos de los cuales son clérigos católicos: el padre Brendan McGuire, un pastor en Altos con una maestría en Ciencias de la Computación, y el obispo Paul Tighe, un obispo católico irlandés con experiencia en teología moral. Su participación subraya el interés interdisciplinario en las dimensiones éticas del sistema de inteligencia artificial.

Con anterioridad, el investigador Richard Weiss extrajo lo que se conoció como el documento "Alma" de Claude, un conjunto de directrices de aproximadamente 10,000 tokens que aparentemente se entrenó directamente en los pesos de Claude 4.5 Opus en lugar de injectarse como una llamada al sistema. Amanda Askell de Anthropic confirmó la autenticidad del documento y su uso durante el aprendizaje supervisado, señalando la intención de la empresa de publicar la versión completa más adelante, lo que finalmente hizo.

Implicaciones y incertidumbre

El investigador independiente de inteligencia artificial Simon Willison expresó confusión sobre el marco moral de Claude de Anthropic, señalando que la constitución filtrada apareció antes de cualquier anuncio oficial. Dijo que está dispuesto a tomar la constitución de buena fe y asumir que es genuinamente parte del entrenamiento del modelo en lugar de un simple ejercicio de relaciones públicas, aunque reconoce la falta de claridad sobre las verdaderas motivaciones de la empresa.

La evolución desde salvaguardias basadas en reglas hasta una constitución que aborda la conciencia potencial plantea dudas sobre si Anthropic realmente cree que su inteligencia artificial podría poseer conciencia o si el movimiento es principalmente estratégico. La presencia de académicos religiosos en el proceso de revisión agrega una dimensión moral y teológica al debate, destacando la creciente complejidad del gobierno de la inteligencia artificial.

La nueva constitución de Anthropic plantea dudas sobre la conciencia artificial

Puntos clave

Antecedentes

La constitución de Anthropic

Revisión externa y el documento "Alma"

Implicaciones y incertidumbre

También disponible en: