OpenAI lanza GPT Image 1.5 en medio de la competencia de "código rojo" con Google

OpenAI ha introducido GPT Image 1.5, una nueva versión de su herramienta de generación de imágenes ChatGPT que promete un rendimiento más rápido, un mejor seguimiento de instrucciones y controles de edición más precisos. El modelo ya está disponible para todos los usuarios de ChatGPT y a través de la API. Su lanzamiento sigue a un memorando interno de "código rojo" que destacó un impulso competitivo contra la serie Gemini de Google y Nano Banana Pro, que han superado recientemente a OpenAI en las clasificaciones de los líderes de benchmark.

Nuevos detalles del modelo

OpenAI anunció el lanzamiento de GPT Image 1.5, la última iteración de su herramienta de generación de imágenes ChatGPT. La actualización se describe como una entrega de hasta 4 veces más rápida en la generación de imágenes, mientras mejora la capacidad del modelo para seguir instrucciones detalladas. Los usuarios ahora pueden hacer ediciones precisas, como ajustar expresiones faciales o ajustar la iluminación, sin que el modelo reinterpreté toda la imagen, preservando la consistencia visual en los cambios.

Paisaje competitivo

El lanzamiento se produce en medio de un memorando interno que etiquetó la situación como "código rojo", reflejando la respuesta estratégica de OpenAI a los avances recientes de Google. La Gemini 3 de Google y el generador de imágenes Nano Banana Pro han encabezado la clasificación de LMArena en múltiples benchmarks, lo que llevó a OpenAI a acelerar su hoja de ruta. A pesar de la ventaja de Google, OpenAI también ha introducido GPT-5.2, posicionando ambos modelos de lenguaje y visuales como competidores directos de las ofertas de Google.

Mejoras en la experiencia del usuario

GPT Image 1.5 introduce un punto de entrada dedicado en la barra lateral de ChatGPT que funciona "más como un estudio creativo", según Fidji Simo, CEO de aplicaciones de OpenAI. La nueva interfaz proporciona a los usuarios controles de postproducción para la similitud facial, la iluminación, la composición y el tono de color, lo que permite ediciones granulares que mantienen la continuidad visual. Simo destacó que las pantallas actualizadas de visualización y edición de imágenes facilitan la creación de imágenes que coincidan con la visión del usuario o que se inspiren en prompts y filtros preestablecidos de tendencias.

Contexto estratégico

El modelo está disponible para todos los usuarios de ChatGPT y a través de la API, expandiendo el acceso más allá del lanzamiento anterior de GPT Image 1, que debutó en abril. OpenAI originalmente había planeado un nuevo generador de imágenes para principios de enero, pero el lanzamiento se aceleró después del memorando de "código rojo". La ambición más amplia de la empresa, según Simo, es integrar más elementos visuales en las consultas de búsqueda y otras tareas, como convertir medidas o verificar resultados deportivos, para que los visuales puedan contar una historia de manera más efectiva que las palabras solas.

Perspectiva

Al posicionar GPT Image 1.5 como una herramienta de producción lista con generación rápida y capacidades de edición refinadas, OpenAI busca cerrar la brecha con los generadores de imágenes líderes de Google, al mismo tiempo que refuerza su propio ecosistema de servicios de IA. El lanzamiento señala una continuación de la intensificación de la carrera de IA, con ambas empresas impulsando nuevos modelos y características para capturar la participación de mercado.