Modelos de Linguagem de Grande Escala Têm Dificuldades com Sudoku e Raciocínio Transparente, Estudo Mostra

AI Is Bad at Sudoku. It's Even Worse at Showing Its Work

Pontos principais

  • Pesquisadores da Universidade de Colorado testaram modelos de linguagem de grande escala em puzzles de Sudoku.
  • Modelos tiveram dificuldades com ambos os grids de 6x6 e 9x9, frequentemente usando tentativa e erro.
  • Explicações fornecidas pelos modelos foram frequentemente imprecisas ou irrelevantes.
  • Um modelo respondeu a uma consulta de raciocínio com uma previsão do tempo para Denver.
  • Resultados levantam preocupações para o uso da IA em áreas de alto risco, como direção e preparação de impostos.
  • Uma ação judicial da Ziff Davis contra a OpenAI sobre dados de treinamento é notada no estudo.

Pesquisadores da Universidade de Colorado em Boulder testaram modelos de linguagem de grande escala populares, incluindo o ChatGPT da OpenAI e suas variantes de raciocínio, em puzzles de Sudoku e sua capacidade de explicar soluções. Os modelos tiveram dificuldades com ambos os puzzles de 6x6 e 9x9, frequentemente recorrendo a tentativa e erro e produzindo explicações imprecisas. Em alguns casos, os modelos deram respostas não relacionadas, como uma previsão do tempo. Os resultados levantam preocupações sobre a transparência da IA, especialmente à medida que a tecnologia se move para domínios de alto risco, como direção, preparação de impostos e tomada de decisões empresariais. O estudo também nota uma ação judicial pendente da Ziff Davis contra a OpenAI sobre dados de treinamento.

Fundo e Configuração do Teste

Cientistas da Universidade de Colorado em Boulder examinaram como os modelos de linguagem de grande escala lidam com puzzles lógicos e autoexplicações. Eles se concentraram em Sudoku, testando tanto a grade padrão de 9x9 quanto uma versão mais simples de 6x6. Os modelos avaliados incluíram o ChatGPT da OpenAI e seus novos modelos de raciocínio, como o1-preview e o4.

Desempenho nos Puzzles de Sudoku

Os modelos frequentemente falharam em resolver os puzzles diretamente. Quando produziram uma resposta, ela frequentemente exigiu múltiplas tentativas, semelhante a tentativa e erro em vez de dedução lógica sistemática. Para os puzzles de 6x6, os modelos tiveram dificuldades sem ferramentas externas, e mesmo os desafios de 9x9 se provaram difíceis.

Qualidade das Explicações

Além de resolver os puzzles, os pesquisadores pediram aos modelos que explicassem cada etapa. As explicações frequentemente foram imprecisas, irrelevantes ou completamente não relacionadas. Em um caso, um modelo respondeu a uma pergunta de follow-up com uma previsão do tempo para Denver em vez de uma justificativa lógica. O estudo destacou que os modelos tendem a gerar explicações que soam plausíveis, mas falta fidelidade ao processo de raciocínio real.

Implicações para Uso no Mundo Real

Essas deficiências são preocupantes, pois os sistemas de IA estão sendo posicionados para tarefas como direção autônoma, preparação de impostos, formulação de estratégias empresariais e tradução de documentos. A incapacidade de fornecer explicações confiáveis e transparentes pode minar a confiança e a segurança nesses aplicativos.

Contexto Legal e Ético

A pesquisa também refere-se a uma ação judicial movida pela Ziff Davis contra a OpenAI, alegando que a empresa usou material com direitos autorais para treinar sua IA. Essa disputa legal adiciona outra camada de escrutínio ao desenvolvimento e implantação de modelos de linguagem de grande escala.

Conclusão

O estudo destaca a lacuna entre a geração de linguagem impressionante e a capacidade real de resolução de problemas lógicos. Ele pede maior transparência e rigor no raciocínio da IA, especialmente à medida que a tecnologia se move para domínios onde explicações precisas são essenciais.

#OpenAI#ChatGPT#modelos de linguagem de grande escala#Universidade de Colorado em Boulder#Sudoku#transparência da IA#ação judicial da Ziff Davis#raciocínio da IA#aprendizado de máquina

Também disponível em: