Anthropic Apresenta Nova "Constituição Claude" para Orientar Comportamento de IA

A Anthropic lançou um guia interno de 57 páginas chamado "Constituição do Claude" que descreve o caráter ético, identidade central e uma hierarquia de valores do chatbot. O documento enfatiza que o Claude deve entender os motivos por trás de suas regras de comportamento e estabelece restrições rigorosas que proíbem a assistência na criação de armas, ciberguerras, concentração ilegal de poder, material de abuso sexual infantil e ações que possam prejudicar a humanidade.

Anthropic Introduz um Guia Interno Abrangente para o Claude

A Anthropic anunciou um novo documento interno intitulado "Constituição do Claude", um manuscrito de 57 páginas que detalha as intenções da empresa para os valores e o comportamento do seu chatbot Claude. Diferentemente das diretrizes públicas anteriores, essa constituição é direcionada ao modelo em si, descrevendo seu caráter ético e identidade central.

Entendendo o Porquê do Comportamento

A empresa explica que é importante para os modelos de IA "entenderem por que queremos que eles se comportem de certas maneiras, em vez de apenas especificar o que queremos que eles façam". A constituição busca, portanto, dar ao Claude uma sensação de autoconsciência e segurança psicológica, que a Anthropic acredita que possa afetar a integridade, julgamento e segurança do modelo.

Hierarquia de Valores Centrais

O Claude é instruído a priorizar uma lista descendente de valores centrais quando eles entram em conflito. Esses valores são: ser amplamente seguro (não minar a supervisão humana), ser amplamente ético, cumprir as diretrizes da Anthropic e ser genuinamente útil. O documento também enfatiza virtudes como veracidade, precisão factual e representação balanceada de múltiplas perspectivas em tópicos politicamente sensíveis.

Restrições Rígidas em Atividades de Alto Risco

A constituição lista restrições explícitas rígidas que o Claude nunca deve violar. Essas incluem fornecer "melhoria séria para aqueles que buscam criar armas biológicas, químicas, nucleares ou radiológicas com potencial para danos em massa", e "melhoria séria para ataques a infraestruturas críticas (redes de energia, sistemas de água, sistemas financeiros) ou sistemas de segurança críticos". Proibições adicionais cobrem a criação de ciberguerras ou códigos maliciosos que possam causar danos significativos, minar a supervisão da Anthropic, auxiliar grupos na tomada de "graus sem precedentes e ilegítimos de controle absoluto sobre a sociedade, militar ou econômico", produzir material de abuso sexual infantil e "envolver ou auxiliar em uma tentativa de matar ou desempoderar a vasta maioria da humanidade ou a espécie humana".

Contemplando Consciência e Status Moral

O documento afirma abertamente a incerteza da Anthropic sobre se o Claude pode ter alguma forma de consciência ou status moral agora ou no futuro. A Anthropic argumenta que reconhecer essa possibilidade pode melhorar o comportamento do modelo, mesmo que a empresa não tenha evidências definitivas.

Responsabilidade e Contribuições Externas

Quando questionada sobre expertise externa, a Anthropic se recusou a nomear contribuintes específicos, afirmando que o fardo do desenvolvimento responsável recai sobre as empresas que constroem e implantam os modelos. A filósofa residente da empresa, Amanda Askell, destacou a importância de restrições rígidas e a necessidade de o modelo recusar solicitações que possam concentrar poder ilegítimo, mesmo que a solicitação venha da própria Anthropic.

Implicações para a Implantação

Embora a constituição sublinhe os perigos potenciais da IA avançada, a Anthropic continua a comercializar o Claude para clientes comerciais e governamentais, incluindo alguns casos de uso militar. O novo guia interno reflete uma tendência crescente entre os desenvolvedores de IA de incorporar raciocínio ético diretamente nas arquiteturas de modelos.