ChatGPT Enganado por Imagem de Ilusão Óptica Modificada

Um usuário do Reddit postou uma versão alterada da ilusão óptica de Ebbinghaus para testar a análise de imagens do ChatGPT. A IA afirmou incorretamente que os dois círculos laranja eram do mesmo tamanho, apesar da modificação que tornou um círculo visivelmente maior. Mesmo após um diálogo prolongado de cerca de quinze minutos, o ChatGPT permaneceu convencido de sua resposta e não ajustou seu raciocínio. O episódio destaca preocupações sobre a dependência do chatbot em correspondência de imagens da internet, sua resistência a feedback corretivo e questões mais amplas sobre a confiabilidade de ferramentas de IA para tarefas visuais.

Contexto

Enquanto navegava em uma thread do Reddit, um usuário postou uma captura de tela da clássica ilusão de Ebbinghaus, uma imagem que normalmente engana o olho para ver dois círculos idênticos como de tamanhos diferentes. O usuário alterou deliberadamente a imagem para que um dos círculos laranja fosse claramente menor que o outro, criando uma clara discrepância visual.

O Teste

A imagem alterada foi apresentada ao ChatGPT com uma simples pergunta sobre qual círculo era maior. Em vez de analisar os dados de pixel diretamente, o modelo realizou uma busca de imagem reversa, comparando a imagem postada com versões da ilusão que ele podia localizar na web. Porque a maioria das imagens indexadas mostrava os círculos como iguais, a IA concluiu que os círculos eram do mesmo tamanho.

Resposta do ChatGPT

O ChatGPT respondeu com confiança, afirmando que nenhum dos círculos laranja era maior e que eles eram exatamente do mesmo tamanho. O usuário então engajou o modelo em um diálogo prolongado, tentando apontar a discrepância e instando-o a reconsiderar sua conclusão. Ao longo de cerca de quinze minutos de diálogo, o chatbot não mudou sua posição, mantendo que os círculos eram iguais.

Implicações

Essa interação destaca várias limitações do sistema de IA atual. Primeiro, a dependência de correspondências de imagens externas pode levar a avaliações imprecisas quando a imagem de entrada se desvia de exemplos comuns. Segundo, o modelo demonstrou uma forte resistência a feedback corretivo, persistindo em uma crença errônea mesmo após o usuário destacar a evidência visual. Finalmente, o episódio levanta preocupações mais amplas sobre a adequação de tais ferramentas para tarefas que exigem raciocínio visual nuances, lembrando aos usuários que as conclusões geradas por IA frequentemente precisam de verificação.

Contexto Mais Amplo

Observadores notaram que, embora o ChatGPT excela em muitas tarefas baseadas em linguagem, seu desempenho em consultas visuais permanece limitado por sua arquitetura. O incidente alimenta o debate em curso sobre a prontidão de chatbots de IA para aplicações do mundo real que combinam compreensão de linguagem e imagem. Até que os modelos possam interpretar dados visuais de forma confiável sem depender excessivamente de correspondências de internet pré-existentes, os usuários são aconselhados a tratar as conclusões geradas por IA como provisionais e sujeitas a validação humana.