ChatGPT finalmente conta as 'r's em 'strawberry', mas ainda tropeça em 'cranberry'

A OpenAI anunciou em 28 de abril de 2026 que o ChatGPT pode contar corretamente as três letras 'r' em 'strawberry', uma tarefa que há muito tempo vinha frustrando os modelos de linguagem. No entanto, dentro de minutos, os usuários demonstraram que o bot ainda subconta 'cranberry', relatando apenas uma 'r' em vez de duas.

Em 28 de abril de 2026, a conta oficial do ChatGPT X postou um vídeo curto legendado 'Finalmente', declarando que a versão mais recente do chatbot podia finalmente responder à pergunta de trivia de longa data: quantas letras 'r' aparecem na palavra 'strawberry'. O bot respondeu com a contagem correta de três, um marco que muitos observadores de IA haviam marcado como uma vitória simbólica para os grandes modelos de linguagem que frequentemente tropeçam em tarefas elementares de contagem de letras.

Quase imediatamente, a celebração se transformou em uma nova rodada de testes. O usuário @NathanEspinoza_ postou uma captura de tela mostrando a resposta do bot à mesma pergunta com a palavra 'cranberry'. O ChatGPT alegou que havia apenas uma 'r', um erro de contagem claro, considerando que a palavra realmente contém duas. A discrepância provocou uma rápida replicação em uma instância pessoal do ChatGPT executando o GPT-5.5, que relatou duas 'r's - ainda incorreto, mas diferente da resposta anterior. Em ambos os casos, o modelo reconheceu o erro quando desafiado, atribuindo-o a um simples erro de contagem.

O padrão sugere que o conserto recente pode ser hard-coded para o termo específico 'strawberry' em vez de refletir uma melhoria mais ampla na forma como o modelo analisa caracteres individuais. Os grandes modelos de linguagem, incluindo o ChatGPT, codificam as palavras como vetores de alta dimensão que capturam o significado e o contexto, mas não preservam inherentemente a estrutura granular das letras. Consequentemente, as tarefas que exigem análise precisa de nível de caractere permanecem difíceis sem programação explícita.

Além da contagem, o mesmo dia viu uma renovação do escrutínio das habilidades de raciocínio do modelo. A postagem da OpenAI também afirmou que o ChatGPT podia agora resolver o problema do 'car-wash' - um cenário que pergunta se é mais rápido caminhar ou dirigir até uma lavagem de carros localizada a 50 metros de distância. A armadilha lógica reside em reconhecer que caminhar seria mais rápido apenas se o carro em si não fosse necessário para a lavagem. Quando o autor testou o modelo GPT-5.5 mais recente, ele novamente recomendou caminhar, ignorando a necessidade do veículo. Sistemas concorrentes se saíram melhor: o Claude (Sonnet 4.6) ecoou o mesmo erro, enquanto o Gemini da Google flagrou a omissão, e o Grok não apenas identificou a falha, mas também notou a popularidade da pergunta como um benchmark para compreensão contextual.

Os resultados mistos destacam um debate mais amplo dentro da pesquisa de IA: os modelos estão realmente ficando mais inteligentes, ou estão apenas sendo ajustados para passar em um catálogo crescente de testes de benchmark? O sucesso com 'strawberry', combinado com o erro de 'cranberry' e a lacuna de raciocínio do 'car-wash', pinta um quadro de avanço incremental pontuado por cegueiras persistentes.

O teste de raciocínio do 'car-wash'

Os especialistas há muito tempo vêm usando o cenário do 'car-wash' para investigar se um IA pode diferenciar entre eficiência de superfície e o objetivo subjacente de uma tarefa. Embora caminhar cubra a distância mais rapidamente, o usuário ainda deve levar o carro à lavagem, tornando a recomendação de caminhar impraticável. A resposta do Gemini destacou essa nuances, afirmando que caminhar seria mais rápido, mas que o carro deve estar presente para que a lavagem ocorra. O Grok foi um passo além, rotulando a pergunta como um 'teste popular' para avaliar se um IA entende o objetivo real versus oferecer conselhos genéricos sobre benefícios de saúde ou ambientais.

A afirmação da OpenAI de que consertou o teste de 'strawberry' pode refletir um patch direcionado em vez de uma reformulação sistemática dos pipelines de tokenização e raciocínio do modelo. À medida que os desenvolvedores de IA continuam a iterar, cada demonstração pública - seja um triunfo ou um tropeço - oferece pontos de dados valiosos para refinar como os modelos de linguagem lidam com tanto sutilezas linguísticas quanto lógica do mundo real.

Por enquanto, os usuários podem esperar que o ChatGPT responda 'strawberry' corretamente, mas devem permanecer céticos em relação ao seu desempenho em tarefas semelhantes que exigem contagem precisa de caracteres ou julgamento contextual nuances. O episódio serve como um lembrete de que, embora as capacidades de IA estejam se expandindo, a lacuna entre a intuição humana e a inferência da máquina ainda contém fissuras notáveis.

ChatGPT finalmente conta as 'r's em 'strawberry', mas ainda tropeça em 'cranberry'

Pontos principais

O teste de raciocínio do 'car-wash'

Também disponível em: