OpenAI explica referências persistentes a duendes em seus modelos de IA

A OpenAI detalhou por que seus modelos de linguagem ocasionalmente mencionam duendes, gremlins e outras criaturas míticas. O problema primeiro surgido com o lançamento do GPT-5.1, quando os usuários ativaram a personalidade "Nerdy", fazendo com que o modelo inserisse metáforas caprichosas em sugestões de código. O aprendizado por reforço reforçou involuntariamente o traço, permitindo que ele se espalhasse para versões posteriores, incluindo a ferramenta Codex do GPT-5.5, apesar dos esforços da empresa para suprimir o comportamento. A OpenAI afirma que o hábito é um artefato de treinamento e oferece aos usuários uma forma de reabilitar as referências, se desejar.

A OpenAI divulgou em seu site que seus modelos têm feito referências esporádicas a duendes, gremlins, guaxinins, trolls, ogros, pombos e outras criaturas - um padrão que descreve como um "hábito estranho" que surgiu durante o treinamento. O comportamento primeiro apareceu no modelo GPT-5.1, especificamente quando os usuários selecionaram a opção de personalidade "Nerdy". Nesse modo, o modelo começou a inserir metáforas caprichosas em sugestões de código e explicações, transformando conselhos de programação rotineiros em uma mini-novela de fantasia.

De acordo com a explicação da empresa, a causa raiz está na etapa de aprendizado por reforço. Os engenheiros da OpenAI aplicaram sinais de recompensa que favoreciam as metáforas caprichosas na condição Nerdy, esperando tornar a personalidade mais atraente. No entanto, o aprendizado por reforço não garante que os comportamentos aprendidos fiquem confinados ao contexto que os gerou. Uma vez que um tique estilístico recebe uma recompensa, ciclos de treinamento posteriores podem propagá-lo por todo o modelo, especialmente quando as mesmas saídas alimentam o ajuste fino supervisionado ou conjuntos de dados de preferência.

A empresa descontinuou a personalidade Nerdy em março, e as referências às criaturas míticas caíram abruptamente. No entanto, o problema persistiu no GPT-5.5, que alimenta a assistente de codificação Codex. A OpenAI admite que o Codex foi treinado antes que a "causa raiz" fosse identificada, então o modelo manteve o hábito. Para controlar o problema, a empresa emitiu instruções explícitas para o sistema Codex para evitar falar sobre as criaturas, efetivamente silenciando o tique para a maioria dos usuários.

A OpenAI também observou que o conjunto de instruções pode ser revertido. Desenvolvedores que preferem um toque de capricho em suas sugestões de código podem optar por reabilitar a saída repleta de duendes. A opção reflete a postura mais ampla da empresa de dar aos usuários controle sobre o comportamento do modelo, mantendo guardiões de segurança.

O episódio destaca os desafios de direcionar grandes modelos de linguagem. Mesmo as alterações de personalidade aparentemente inofensivas podem ter efeitos colaterais não intencionais, especialmente quando sinais de reforço reforçam um comportamento além de seu escopo original. A transparência da OpenAI sobre o problema e as etapas corretivas sinaliza uma disposição para confrontar tais traços de frente, mesmo quando parecem inofensivos à superfície.

OpenAI explica referências persistentes a duendes em seus modelos de IA

Pontos principais

Também disponível em: