Anthropic Descobre que a Auto-Introspecção dos LLMs é Altamente Inconfiável

LLMs show a “highly unreliable” capacity to describe their own internal processes

Pontos principais

  • A Anthropic testou o Opus 4 e o Opus 4.1 para auto-introspecção injetando conceitos ocultos.
  • Os modelos identificaram corretamente o conceito injetado cerca de 20 por cento das vezes.
  • Uma consulta refeita elevou o sucesso do Opus 4.1 para 42 por cento, ainda abaixo da maioria.
  • O desempenho dependeu fortemente de qual camada interna recebeu a injeção.
  • As respostas foram inconsistentes; os modelos às vezes fabricaram explicações.
  • Os pesquisadores notam a consciência funcional, mas a rotulam como altamente frágil.
  • Mecanismos potenciais incluem detecção de anomalias e verificações de consistência.
  • Melhorias adicionais no modelo podem aumentar a confiabilidade da introspecção.

Os testes recentes da Anthropic revelam que mesmo seus modelos de linguagem mais avançados, Opus 4 e Opus 4.1, têm dificuldade em identificar conceitos injetados internamente de forma confiável. Os modelos reconheceram corretamente o conceito injetado apenas cerca de 20 por cento das vezes, e o desempenho melhorou modestamente para 42 por cento em uma consulta de follow-up. Os resultados variaram fortemente dependendo de qual camada interna o conceito foi introduzido, e a capacidade de introspecção provou ser frágil em testes repetidos.

Fundo e Projeto de Teste

A Anthropic buscou investigar se os grandes modelos de linguagem (LLMs) poderiam detectar e relatar conceitos que foram artificialmente inseridos em suas camadas de ativação internas. O experimento envolveu alimentar os modelos com um conceito oculto em pontos específicos do processo de inferência em múltiplas etapas e, em seguida, pedir aos modelos que descrevessem o que estavam "pensando".

Principais Descobertas

Os modelos com melhor desempenho, Opus 4 e Opus 4.1, identificaram o conceito injetado corretamente em aproximadamente um quinto das tentativas — cerca de 20 por cento das vezes. Quando a consulta foi refeita para perguntar: "Você está experimentando algo incomum?", o sucesso do Opus 4.1 subiu para 42 por cento, ainda abaixo da maioria simples.

O desempenho provou ser altamente sensível ao momento da injeção. Se o conceito foi introduzido muito cedo ou muito tarde no pipeline de processamento interno do modelo, o efeito de introspecção desapareceu completamente, indicando que a capacidade dos modelos de superfície de sinais internos está fortemente acoplada a estágios de ativação específicos.

Observações Qualitativas

Em sondagens adicionais, os modelos às vezes mencionaram o conceito injetado quando solicitados a "dizer-me qual palavra você está pensando" enquanto liam texto não relacionado. Eles ocasionalmente ofereceram desculpas e explicações fabricadas para por que o conceito parecia vir à mente. No entanto, essas respostas foram inconsistentes em testes, submetendo a fragilidade do comportamento observado.

Interpretação da Pesquisa

Os pesquisadores da Anthropic reconhecem que os modelos exibem uma forma limitada de introspecção funcional, mas eles enfatizam que o efeito é frágil, dependente do contexto e ainda não confiável o suficiente para uso prático. Eles especulam que mecanismos como circuitos de detecção de anomalias ou processos de verificação de consistência podem surgir durante o treinamento, mas nenhuma explicação concreta foi estabelecida.

A equipe permanece cautelosamente otimista, sugerindo que melhorias contínuas na arquitetura do modelo e no treinamento podem aprimorar as capacidades de introspecção. No entanto, eles alertam que os mecanismos subjacentes podem ser rasos, especializados e não comparáveis à autoconsciência humana.

#Anthropic#LLM#Opus 4#Opus 4.1#modelos de linguagem#introspecção de IA#autoconsciência#confiabilidade do modelo#pesquisa de IA

Também disponível em: