El nuevo modelo de imagen ChatGPT de OpenAI mejora, pero sigue por detrás de Nano Banana de Google

OpenAI presentó una nueva versión de su generador de imágenes ChatGPT, considerada como una mejora significativa con respecto a versiones anteriores. Aunque el modelo muestra una renderización de texto más clara y una mejor gestión de prompts de estilo cartoon, todavía lucha con la precisión en gráficos detallados como una infografía del ciclo del agua. En comparaciones directas, el modelo Nano Banana de Google entrega consistentemente imágenes realistas de mayor calidad, generación más rápida y límites de uso más generosos.

El modelo de imagen actualizado de OpenAI

OpenAI introdujo una nueva iteración de su generador de imágenes ChatGPT, a menudo referido como el modelo 1.5. La actualización trae mejoras notables en la legibilidad del texto y la calidad general de la imagen en comparación con versiones anteriores. Los testers observaron que el modelo puede producir elementos textuales más claros en las imágenes generadas, un paso adelante con respecto a la generación anterior donde el texto era a menudo difícil de leer.

Problemas de precisión persistentes

A pesar de estos avances, el modelo todavía exhibe errores en detalles visuales precisos. En una prueba práctica que involucró una infografía del ciclo del agua, las flechas generadas apuntaban en la dirección incorrecta, dando la impresión de que la lluvia podría ascender desde el suelo. Aunque el modelo más reciente renderizó el texto de manera más clara, los errores de dirección persistieron, lo que indica que el sistema aún no tiene un dominio completo de diagramas científicos específicos.

Rendimiento en comparación con Nano Banana de Google

El modelo Nano Banana de Google, parte de su suite Gemini, superó consistentemente al nuevo modelo ChatGPT en comparaciones directas. Nano Banana produjo imágenes realistas con mayor fidelidad y lo hizo de manera más rápida. Los usuarios también reportaron que los límites de uso gratuitos en la plataforma de Google duraban más que aquellos en el servicio de OpenAI, reduciendo las interrupciones durante las pruebas.

Fortalezas en prompts creativos y no realistas

El generador de imágenes ChatGPT continúa destacándose en la generación de visuales estilizados y de estilo cartoon. Su capacidad para manejar prompts imaginativos y menos realistas sigue siendo una ventaja distintiva, incluso cuando las capacidades de renderizado realista del modelo siguen por detrás de la oferta de Google.

Implicaciones para la carrera de la imagen de IA

La implementación del modelo de imagen ChatGPT actualizado parece ser una respuesta a los rápidos avances de Google en IA generativa. Mientras que OpenAI ha cerrado algunas brechas, particularmente en la claridad del texto, la calidad general, la velocidad y el realismo de sus imágenes todavía no alcanzan el rendimiento de Nano Banana. Los observadores sugieren que OpenAI puede continuar iterando rápidamente para reducir esta brecha, pero la comparación actual subraya una clara ventaja para Google en el competitivo paisaje de la creación de imágenes impulsada por IA.