OpenAI Presenta GPT-5.4 con Uso Nativo de Computadora y Ventana de Contexto Expandida

Puntos clave
- OpenAI lanzó GPT-5.4 en tres configuraciones: estándar, Pensamiento y Pro.
- Las pruebas de benchmark muestran que el modelo iguala o supera a los profesionales en muchas tareas.
- El uso nativo de computadora permite al modelo operar software y realizar flujos de trabajo multietapa.
- La ventana de contexto se expande a un límite de 1 millón de tokens para el procesamiento de documentos completos.
- El nuevo sistema de búsqueda de herramientas reduce el uso de tokens al recuperar definiciones de herramientas a demanda.
- La evaluación de seguridad (CoT Controllability) indica una baja capacidad para ocultar el razonamiento.
- El lanzamiento se produce durante una competencia intensa entre modelos de IA de frontera.
OpenAI lanzó GPT-5.4, un nuevo modelo de frontera ofrecido en tres configuraciones para cargas de trabajo generales, intensivas en razonamiento y de alta demanda. El modelo muestra ganancias en benchmarks en tareas profesionales, introduce el uso nativo de computadora y expande la ventana de contexto a un límite de 1 millón de tokens. Un sistema de búsqueda de herramientas rediseñado reduce el uso de tokens, y una nueva evaluación de seguridad prueba la capacidad de controlar la cadena de pensamiento. El lanzamiento posiciona a GPT-5.4 como el modelo más capaz de OpenAI para el trabajo profesional, destacando la competencia en curso en la frontera de la IA.
Lanzamiento del Modelo y Configuraciones
OpenAI anunció GPT-5.4, describiéndolo como el modelo de frontera más capaz y eficiente de la empresa para el trabajo profesional. El modelo está disponible en tres versiones: una versión estándar para uso general, una variante "Pensamiento" diseñada para tareas que se benefician del razonamiento extendido de cadena de pensamiento, y una versión "Pro" dirigida a las cargas de trabajo de mayor demanda. La opción "Pensamiento" está accesible para suscriptores Plus, Team y Pro, mientras que la versión "Pro" está reservada para planes de ChatGPT de mayor precio.
Rendimiento en Benchmarks
Según las evaluaciones internas de OpenAI, GPT-5.4 iguala o supera a los profesionales de la industria en la mayoría de las comparaciones de tareas profesionales, mejorando las versiones anteriores. En un benchmark de navegación de escritorio, el modelo logró una tasa de éxito que supera el benchmark de rendimiento humano informado. También superó un benchmark de tareas profesionales que evalúa flujos de trabajo sostenidos en campos como la banca de inversión y el derecho corporativo. OpenAI informa reducciones en errores factuales y alucinaciones en comparación con versiones anteriores.
Nuevas Capacidades
La adición más significativa es el uso nativo de computadora, que permite al modelo operar software, navegar sistemas de archivos y ejecutar flujos de trabajo multietapa sin marcos agénticos externos. Esta capacidad está integrada en el modelo de propósito general, simplificando la integración para los desarrolladores. La API también admite una ventana de contexto de hasta 1 millón de tokens, más del doble del límite anterior, lo que permite el procesamiento de contexto completo de grandes documentos, bases de código y registros financieros.
Mejoras de Eficiencia
Un sistema de búsqueda de herramientas rediseñado permite al modelo recuperar definiciones de herramientas a demanda, reduciendo el uso de tokens en casi la mitad en las pruebas internas. Esta reducción se traduce en costos más bajos y respuestas más rápidas para sistemas agénticos a gran escala.
Evaluación de Seguridad
OpenAI presentó una evaluación de código abierto llamada CoT Controllability, que prueba si el modelo puede oscurecer deliberadamente su razonamiento para evadir la supervisión. Los resultados sugieren que el modelo muestra una baja capacidad para ocultar su cadena de pensamiento, lo que OpenAI considera una señal de seguridad positiva.
Paisaje Competitivo
El lanzamiento llega en medio de una intensa competencia de otros modelos de IA de frontera, cada uno liderando en diferentes categorías de benchmarks. Mientras que GPT-5.4 lidera en el uso de computadora de escritorio y tareas de conocimiento profesional, otros modelos destacan en codificación o razonamiento abstracto. El ritmo de lanzamiento rápido de OpenAI subraya su estrategia de mantenerse visible en un mercado en constante movimiento.