ChatGPT finalmente cuenta las 'r' en 'fresa' pero todavía tropieza con 'arándano'

OpenAI's ChatGPT anunció el 28 de abril de 2026 que podía contar correctamente las tres letras 'r' en 'fresa', una tarea que ha desconcertado a los modelos de lenguaje durante mucho tiempo. Dentro de minutos, los usuarios demostraron que el bot todavía malcontaba 'arándano', informando solo una 'r' en lugar de dos. Las pruebas del mismo modelo en una clásica pregunta de razonamiento 'car-wash' también mostraron resultados mixtos, con algunos competidores señalando la falla lógica que el modelo pasó por alto. El episodio destaca tanto el progreso como las brechas persistentes en el manejo de AI de la cuenta simple y el razonamiento contextual.

El 28 de abril de 2026, la cuenta oficial de ChatGPT X publicó un breve video titulado 'Al fin', declarando que la última versión del chatbot podía finalmente responder a la pregunta de trivia de larga data: ¿cuántas letras 'r' aparecen en la palabra 'fresa'? El bot respondió con la cuenta correcta de tres, un hito que muchos observadores de AI habían marcado como una victoria simbólica para los grandes modelos de lenguaje que a menudo tropiezan en tareas elementales de cuenta de letras.

Casi de inmediato, la celebración se convirtió en una nueva ronda de pruebas. El usuario X @NathanEspinoza_ publicó una captura de pantalla que mostraba la respuesta del bot a la misma pregunta con la palabra 'arándano'. ChatGPT afirmó que solo había una 'r', un malconteo claro dado que la palabra en realidad contiene dos. La discrepancia provocó una rápida replicación en una instancia personal de ChatGPT que ejecutaba GPT-5.5, que informó dos 'r' - aún incorrecto, pero diferente a la respuesta anterior. En ambos casos, el modelo reconoció el error cuando se le cuestionó, atribuyéndolo a un simple error de cuenta.

El patrón sugiere que la solución reciente puede estar codificada de manera específica para el término 'fresa' en lugar de reflejar una mejora más amplia en la forma en que el modelo analiza los caracteres individuales. Los grandes modelos de lenguaje, incluido ChatGPT, codifican las palabras como vectores de alta dimensión que capturan el significado y el contexto pero no preservan inherentemente la estructura granular de las letras. En consecuencia, las tareas que requieren un análisis preciso de nivel de carácter siguen siendo difíciles sin programación explícita.

Más allá de la cuenta, el mismo día vio una renovada escrutinio de las capacidades de razonamiento del modelo. La publicación de OpenAI también afirmó que ChatGPT podía resolver el problema 'car-wash' - un escenario que pregunta si es más rápido caminar o conducir a un lavado de autos ubicado a 50 metros de distancia. La trampa lógica radica en reconocer que caminar sería más rápido solo si el auto en sí no fuera necesario para el lavado. Cuando el autor probó el modelo GPT-5.5 más reciente, nuevamente recomendó caminar, ignorando la necesidad del vehículo. Los sistemas competidores obtuvieron mejores resultados: Claude (Sonnet 4.6) repitió el mismo error, mientras que Gemini de Google señaló la omisión, y Grok no solo identificó la falla sino que también señaló la popularidad de la pregunta como una referencia para la comprensión contextual.

Los resultados mixtos subrayan un debate más amplio dentro de la investigación de AI: ¿los modelos están genuinamente volviéndose más inteligentes, o simplemente están siendo ajustados para aprobar un catálogo creciente de pruebas de referencia? El éxito de la fresa, junto con el resbalón de la arándano y la brecha de razonamiento del car-wash, pinta una imagen de avance incremental punctuado por cegueras persistentes.

La prueba de razonamiento del car-wash

Los expertos han utilizado durante mucho tiempo el escenario del car-wash para probar si un AI puede diferenciar entre la eficiencia de superficie y el objetivo subyacente de una tarea. Si bien caminar cubre la distancia más rápido, el usuario todavía debe llevar el auto al lavado, lo que hace que la recomendación de caminar sea impráctica. La respuesta de Gemini destacó esta sutileza, afirmando que caminar sería más rápido pero que el auto debe estar presente para que el lavado ocurra. Grok fue un paso más allá, etiquetando la pregunta como una 'prueba popular' para evaluar si un AI comprende el objetivo real versus ofrecer consejos genéricos sobre beneficios para la salud o el medio ambiente.

La afirmación de OpenAI de haber solucionado la prueba de la fresa puede reflejar un parche dirigido en lugar de una revisión sistémica de las tuberías de tokenización y razonamiento del modelo. A medida que los desarrolladores de AI continúan iterando, cada demostración pública - ya sea un triunfo o un tropiezo - ofrece puntos de datos valiosos para refinar cómo los modelos de lenguaje manejan tanto las sutilezas lingüísticas como la lógica del mundo real.

Por ahora, los usuarios pueden esperar que ChatGPT responda 'fresa' correctamente, pero deben permanecer escépticos sobre su desempeño en tareas similares que requieren un conteo preciso de caracteres o un juicio contextual matizado. El episodio sirve como recordatorio de que, si bien las capacidades de AI están expandiéndose, la brecha entre la intuición humana y la inferencia de la máquina todavía contiene grietas notables.

ChatGPT finalmente cuenta las 'r' en 'fresa' pero todavía tropieza con 'arándano'

Puntos clave

La prueba de razonamiento del car-wash

También disponible en: