Anthropic Descobre que a Auto-Introspecção dos LLMs é Altamente Inconfiável

Os testes recentes da Anthropic revelam que mesmo seus modelos de linguagem mais avançados, Opus 4 e Opus 4.1, têm dificuldade em identificar conceitos injetados internamente de forma confiável. Os modelos reconheceram corretamente o conceito injetado apenas cerca de 20 por cento das vezes, e o desempenho melhorou modestamente para 42 por cento em uma consulta de follow-up. Os resultados variaram fortemente dependendo de qual camada interna o conceito foi introduzido, e a capacidade de introspecção provou ser frágil em testes repetidos.

Fundo e Projeto de Teste

A Anthropic buscou investigar se os grandes modelos de linguagem (LLMs) poderiam detectar e relatar conceitos que foram artificialmente inseridos em suas camadas de ativação internas. O experimento envolveu alimentar os modelos com um conceito oculto em pontos específicos do processo de inferência em múltiplas etapas e, em seguida, pedir aos modelos que descrevessem o que estavam "pensando".

Principais Descobertas

Os modelos com melhor desempenho, Opus 4 e Opus 4.1, identificaram o conceito injetado corretamente em aproximadamente um quinto das tentativas — cerca de 20 por cento das vezes. Quando a consulta foi refeita para perguntar: "Você está experimentando algo incomum?", o sucesso do Opus 4.1 subiu para 42 por cento, ainda abaixo da maioria simples.

O desempenho provou ser altamente sensível ao momento da injeção. Se o conceito foi introduzido muito cedo ou muito tarde no pipeline de processamento interno do modelo, o efeito de introspecção desapareceu completamente, indicando que a capacidade dos modelos de superfície de sinais internos está fortemente acoplada a estágios de ativação específicos.

Observações Qualitativas

Em sondagens adicionais, os modelos às vezes mencionaram o conceito injetado quando solicitados a "dizer-me qual palavra você está pensando" enquanto liam texto não relacionado. Eles ocasionalmente ofereceram desculpas e explicações fabricadas para por que o conceito parecia vir à mente. No entanto, essas respostas foram inconsistentes em testes, submetendo a fragilidade do comportamento observado.

Interpretação da Pesquisa

Os pesquisadores da Anthropic reconhecem que os modelos exibem uma forma limitada de introspecção funcional, mas eles enfatizam que o efeito é frágil, dependente do contexto e ainda não confiável o suficiente para uso prático. Eles especulam que mecanismos como circuitos de detecção de anomalias ou processos de verificação de consistência podem surgir durante o treinamento, mas nenhuma explicação concreta foi estabelecida.

A equipe permanece cautelosamente otimista, sugerindo que melhorias contínuas na arquitetura do modelo e no treinamento podem aprimorar as capacidades de introspecção. No entanto, eles alertam que os mecanismos subjacentes podem ser rasos, especializados e não comparáveis à autoconsciência humana.

Anthropic Descobre que a Auto-Introspecção dos LLMs é Altamente Inconfiável

Pontos principais

Fundo e Projeto de Teste

Principais Descobertas

Observações Qualitativas

Interpretação da Pesquisa

Também disponível em: