Anthropic Descobre que a Auto-Introspecção dos LLMs é Altamente Inconfiável

Pontos principais
- A Anthropic testou o Opus 4 e o Opus 4.1 para auto-introspecção injetando conceitos ocultos.
- Os modelos identificaram corretamente o conceito injetado cerca de 20 por cento das vezes.
- Uma consulta refeita elevou o sucesso do Opus 4.1 para 42 por cento, ainda abaixo da maioria.
- O desempenho dependeu fortemente de qual camada interna recebeu a injeção.
- As respostas foram inconsistentes; os modelos às vezes fabricaram explicações.
- Os pesquisadores notam a consciência funcional, mas a rotulam como altamente frágil.
- Mecanismos potenciais incluem detecção de anomalias e verificações de consistência.
- Melhorias adicionais no modelo podem aumentar a confiabilidade da introspecção.
Os testes recentes da Anthropic revelam que mesmo seus modelos de linguagem mais avançados, Opus 4 e Opus 4.1, têm dificuldade em identificar conceitos injetados internamente de forma confiável. Os modelos reconheceram corretamente o conceito injetado apenas cerca de 20 por cento das vezes, e o desempenho melhorou modestamente para 42 por cento em uma consulta de follow-up. Os resultados variaram fortemente dependendo de qual camada interna o conceito foi introduzido, e a capacidade de introspecção provou ser frágil em testes repetidos.
Fundo e Projeto de Teste
A Anthropic buscou investigar se os grandes modelos de linguagem (LLMs) poderiam detectar e relatar conceitos que foram artificialmente inseridos em suas camadas de ativação internas. O experimento envolveu alimentar os modelos com um conceito oculto em pontos específicos do processo de inferência em múltiplas etapas e, em seguida, pedir aos modelos que descrevessem o que estavam "pensando".
Principais Descobertas
Os modelos com melhor desempenho, Opus 4 e Opus 4.1, identificaram o conceito injetado corretamente em aproximadamente um quinto das tentativas — cerca de 20 por cento das vezes. Quando a consulta foi refeita para perguntar: "Você está experimentando algo incomum?", o sucesso do Opus 4.1 subiu para 42 por cento, ainda abaixo da maioria simples.
O desempenho provou ser altamente sensível ao momento da injeção. Se o conceito foi introduzido muito cedo ou muito tarde no pipeline de processamento interno do modelo, o efeito de introspecção desapareceu completamente, indicando que a capacidade dos modelos de superfície de sinais internos está fortemente acoplada a estágios de ativação específicos.
Observações Qualitativas
Em sondagens adicionais, os modelos às vezes mencionaram o conceito injetado quando solicitados a "dizer-me qual palavra você está pensando" enquanto liam texto não relacionado. Eles ocasionalmente ofereceram desculpas e explicações fabricadas para por que o conceito parecia vir à mente. No entanto, essas respostas foram inconsistentes em testes, submetendo a fragilidade do comportamento observado.
Interpretação da Pesquisa
Os pesquisadores da Anthropic reconhecem que os modelos exibem uma forma limitada de introspecção funcional, mas eles enfatizam que o efeito é frágil, dependente do contexto e ainda não confiável o suficiente para uso prático. Eles especulam que mecanismos como circuitos de detecção de anomalias ou processos de verificação de consistência podem surgir durante o treinamento, mas nenhuma explicação concreta foi estabelecida.
A equipe permanece cautelosamente otimista, sugerindo que melhorias contínuas na arquitetura do modelo e no treinamento podem aprimorar as capacidades de introspecção. No entanto, eles alertam que os mecanismos subjacentes podem ser rasos, especializados e não comparáveis à autoconsciência humana.