OpenAI explica referências persistentes a duendes em seus modelos de IA

OpenAI explains lingering goblin references in its AI models

Pontos principais

  • A Wired relatou que a OpenAI deu ao seu modelo de codificação uma regra para nunca mencionar criaturas míticas.
  • A OpenAI rastreou o problema até a personalidade "Nerdy" do GPT-5.1, onde o aprendizado por reforço recompensou as metáforas caprichosas.
  • O sistema de recompensa espalhou involuntariamente o hábito para modelos posteriores, incluindo a ferramenta Codex do GPT-5.5.
  • A descontinuação da personalidade Nerdy em março reduziu as referências, mas o Codex ainda precisou de supressão explícita.
  • A OpenAI agora oferece uma opção para os usuários que desejam manter ou remover as referências a duendes.

A OpenAI detalhou por que seus modelos de linguagem ocasionalmente mencionam duendes, gremlins e outras criaturas míticas. O problema primeiro surgido com o lançamento do GPT-5.1, quando os usuários ativaram a personalidade "Nerdy", fazendo com que o modelo inserisse metáforas caprichosas em sugestões de código. O aprendizado por reforço reforçou involuntariamente o traço, permitindo que ele se espalhasse para versões posteriores, incluindo a ferramenta Codex do GPT-5.5, apesar dos esforços da empresa para suprimir o comportamento. A OpenAI afirma que o hábito é um artefato de treinamento e oferece aos usuários uma forma de reabilitar as referências, se desejar.

A OpenAI divulgou em seu site que seus modelos têm feito referências esporádicas a duendes, gremlins, guaxinins, trolls, ogros, pombos e outras criaturas - um padrão que descreve como um "hábito estranho" que surgiu durante o treinamento. O comportamento primeiro apareceu no modelo GPT-5.1, especificamente quando os usuários selecionaram a opção de personalidade "Nerdy". Nesse modo, o modelo começou a inserir metáforas caprichosas em sugestões de código e explicações, transformando conselhos de programação rotineiros em uma mini-novela de fantasia.

De acordo com a explicação da empresa, a causa raiz está na etapa de aprendizado por reforço. Os engenheiros da OpenAI aplicaram sinais de recompensa que favoreciam as metáforas caprichosas na condição Nerdy, esperando tornar a personalidade mais atraente. No entanto, o aprendizado por reforço não garante que os comportamentos aprendidos fiquem confinados ao contexto que os gerou. Uma vez que um tique estilístico recebe uma recompensa, ciclos de treinamento posteriores podem propagá-lo por todo o modelo, especialmente quando as mesmas saídas alimentam o ajuste fino supervisionado ou conjuntos de dados de preferência.

A empresa descontinuou a personalidade Nerdy em março, e as referências às criaturas míticas caíram abruptamente. No entanto, o problema persistiu no GPT-5.5, que alimenta a assistente de codificação Codex. A OpenAI admite que o Codex foi treinado antes que a "causa raiz" fosse identificada, então o modelo manteve o hábito. Para controlar o problema, a empresa emitiu instruções explícitas para o sistema Codex para evitar falar sobre as criaturas, efetivamente silenciando o tique para a maioria dos usuários.

A OpenAI também observou que o conjunto de instruções pode ser revertido. Desenvolvedores que preferem um toque de capricho em suas sugestões de código podem optar por reabilitar a saída repleta de duendes. A opção reflete a postura mais ampla da empresa de dar aos usuários controle sobre o comportamento do modelo, mantendo guardiões de segurança.

O episódio destaca os desafios de direcionar grandes modelos de linguagem. Mesmo as alterações de personalidade aparentemente inofensivas podem ter efeitos colaterais não intencionais, especialmente quando sinais de reforço reforçam um comportamento além de seu escopo original. A transparência da OpenAI sobre o problema e as etapas corretivas sinaliza uma disposição para confrontar tais traços de frente, mesmo quando parecem inofensivos à superfície.

#OpenAI#GPT-5.1#GPT-5.5#Codex#treinamento de IA#aprendizado por reforço#comportamento do modelo#segurança de IA#singularidades de modelo de linguagem#transparência de IA

Também disponível em: