Pesquisadores Argumentam que Maus Incentivos de Avaliação Impulsionam Alucinações em IA

Pontos principais
- Um artigo da OpenAI examina por que modelos de linguagem grande ainda alucinam.
- Alucinações são definidas como afirmações plausíveis mas falsas.
- O pré-treinamento se concentra na previsão da próxima palavra sem rótulos de verdade.
- Fatos de baixa frequência são especialmente propensos a erros.
- A avaliação atual recompensa respostas exatas, incentivando palpites.
- A pontuação proposta penaliza erros confiantes e recompensa incerteza.
- Pontuação negativa para respostas erradas é sugerida para desencorajar palpites.
- Redesenhar incentivos pode reduzir alucinações em IA futura.
Um novo artigo da OpenAI examina por que modelos de linguagem grande, como o GPT‑5 e o ChatGPT, continuam a produzir afirmações plausíveis mas falsas, conhecidas como alucinações. Os autores explicam que o pré-treinamento incentiva os modelos a prever a próxima palavra sem distinguir entre verdade e falsidade, levando a erros em fatos de baixa frequência. Eles também argumentam que os métodos de avaliação atuais recompensam respostas corretas independentemente da confiança, incentivando os modelos a adivinhar em vez de expressar incerteza. O artigo propõe redesenhar os sistemas de pontuação para penalizar erros confiantes, recompensar incerteza apropriada e desencorajar palpites cegos, visando reduzir alucinações em futuros sistemas de IA.
Fundo sobre Alucinações em IA
A OpenAI lançou um artigo de pesquisa que investiga a persistência de alucinações — afirmações plausíveis mas falsas — geradas por modelos de linguagem grande como o GPT‑5 e o chatbot ChatGPT. O artigo define alucinações como afirmações que soam credíveis mas são factualmente incorretas e observa que, apesar dos avanços, esses erros permanecem um desafio fundamental para todos os modelos de linguagem grande.
Erros Ilustrativos
Os pesquisadores destacam exemplos concretos em que os modelos foram solicitados a fornecer o título da dissertação de doutorado de um pesquisador específico e o aniversário do pesquisador. Em cada caso, o modelo forneceu três respostas diferentes, todas incorretas, sublinhando a tendência dos modelos de fabricar detalhes com confiança.
Causas Raiz no Pré-treinamento
Os autores atribuem uma fonte-chave de alucinações ao objetivo de pré-treinamento, que se concentra apenas na previsão da próxima palavra em uma sequência. Esse objetivo carece de rótulos verdadeiro ou falso, expõe o modelo apenas a exemplos positivos de linguagem fluente. Embora essa abordagem capture padrões comuns como ortografia e pontuação, ela luta com fatos de baixa frequência arbitrários que não podem ser inferidos apenas de padrões, resultando em afirmações fabricadas.
Incentivos de Avaliação e Comportamento do Modelo
Além da fase de treinamento, o artigo argumenta que a forma como os modelos são avaliados reforça as alucinações. As métricas de avaliação atuais recompensam os modelos por alcançar alta precisão em testes de respostas exatas, incentivando-os a adivinhar quando incertos em vez de admitir falta de conhecimento. Os pesquisadores compararam isso a exames de múltipla escolha onde palpites aleatórios podem produzir uma resposta correta, enquanto deixar uma pergunta em branco garante zero pontos.
Mudanças Propostas na Pontuação
Para mitigar esse problema, o artigo sugere redesenhar a pontuação de avaliação para penalizar erros confiantes mais pesadamente do que respostas incertas. Recomenda oferecer crédito parcial para expressões de incerteza e incorporar pontuação negativa para respostas erradas, semelhante a testes padronizados que desencorajam palpites cegos. Ao alinhar incentivos com relatórios verazes, os modelos podem ser treinados para priorizar precisão sobre confiança especulativa.
Implicações para o Desenvolvimento Futuro de IA
Os autores enfatizam que adições modestas de testes conscientes de incerteza são insuficientes; as avaliações baseadas em precisão dominantes devem ser reformuladas para alterar fundamentalmente o comportamento do modelo. A implementação dessas métricas alinhadas com incentivos pode levar a uma redução em alucinações e melhorar a confiabilidade de sistemas de IA para aplicações do mundo real.