OpenAI presenta GPT‑Realtime‑2 y nuevos modelos de API de voz, reduciendo costos para traducción y transcripción en tiempo real

OpenAI anunció tres nuevos modelos de voz: GPT‑Realtime‑2, GPT‑Realtime‑Traducir y GPT‑Realtime‑Susurro, que brindan razonamiento de clase GPT‑5 en audio en vivo, traducción en tiempo real en más de 70 idiomas y transcripción de streaming de baja latencia. La implementación promete una toma de turnos más rápida, llamadas de herramientas paralelas, control de tono y una ventana de contexto de 128K, mientras que los precios son más bajos que la mayoría de las soluciones empresariales.

OpenAI lanzó tres nuevos modelos de voz en su plataforma de API, posicionando a la empresa a la vanguardia de la inteligencia artificial conversacional en tiempo real. El modelo insignia, GPT‑Realtime‑2, ofrece lo que OpenAI describe como razonamiento de clase GPT‑5 dentro de un solo bucle de audio, eliminando la necesidad de componentes separados de transcripción, síntesis y lógica. Un modelo separado, GPT‑Realtime‑Traducir, maneja la traducción en vivo en más de 70 idiomas de entrada y 13 idiomas de salida. El tercer modelo, GPT‑Realtime‑Susurro, proporciona transcripción de voz a texto en streaming con baja latencia.

Los desarrolladores que han construido agentes de voz tradicionalmente combinan una variedad de servicios: Whisper o Deepgram para transcripción, ElevenLabs o Cartesia para texto a voz, y grandes modelos de lenguaje como GPT‑4 para razonamiento. El enfoque integrado de OpenAI colapsa esa pila en un solo modelo que escucha y habla mientras ejecuta un razonamiento complejo en medio. El resultado es una toma de turnos más suave, menos pausas silenciosas y la capacidad de realizar múltiples llamadas de herramientas en paralelo, una capacidad que anteriormente se simulaba con andamiajes de prompting.

GPT‑Realtime‑2 introduce varias características listas para producción. Los preámbulos permiten que el asistente diga "Déjame verificar eso" mientras contacta los servicios de back-end, manteniendo al usuario comprometido. Las llamadas de herramientas paralelas permiten que el modelo solicite varios recursos al mismo tiempo y narrar cuál está activo. El comportamiento de recuperación muestra errores en lugar de congelar la conversación. El modelo también ofrece controles de tono, lo que permite una voz más calmada para escenarios de soporte o un tono más animado para confirmaciones.

En el interior, la ventana de contexto se expande a 128.000 tokens, cuatro veces el tamaño del límite anterior de 32K. Este salto hace que las sesiones más largas y los flujos de agente intrincados sean factibles sin costura de estado externa. El esfuerzo de razonamiento se expone como un control seleccionable: mínimo, bajo, medio, alto y xalto, con bajo como el valor predeterminado para preservar la latencia. En las pruebas internas de OpenAI, GPT‑Realtime‑2 con esfuerzo alto superó a su predecesor en un 15,2% en la prueba de audio Big Bench y un 13,8% en la prueba de seguimiento de instrucciones Audio MultiChallenge.

Los clientes tempranos ya ven beneficios medibles. Zillow registró un aumento de 26 puntos en la tasa de éxito de llamadas en su benchmark adversarial más difícil, pasando del 69% al 95% después de cambiar a GPT‑Realtime‑2. BolnaAI, que construye soluciones de voz con inteligencia artificial para idiomas indios, informó una reducción del 12,5% en las tasas de error de palabras para hindi, tamil y telugu al usar el modelo de traducción.

Los precios señalan la intención de OpenAI de disruptir el mercado. GPT‑Realtime‑2 cuesta $32 por millón de tokens de entrada de audio y $64 por millón de tokens de salida de audio, con un cargo de $0,40 por tokens de entrada en caché. GPT‑Realtime‑Traducir se precio en $0,034 por minuto, aproximadamente un tercio de centavo, superando a la mayoría de las tuberías de traducción empresarial. GPT‑Realtime‑Susurro se ejecuta a $0,017 por minuto, la mitad del costo de los servicios de transcripción de streaming comparables.

Las tarjetas de precios agresivas ponen presión sobre los proveedores como ElevenLabs, Deepgram y otros proveedores de infraestructura de voz que tradicionalmente empaquetan síntesis e inferencia por minuto. Si bien los modelos de OpenAI eliminan parte del trabajo de integración, los desarrolladores aún necesitan implementar guardias, controles de cumplimiento, ajustes de voz de marca y análisis antes de la implementación. OpenAI envía clasificadores activos y opciones de residencia de datos de la UE, pero la responsabilidad de construir un agente de voz completo y listo para producción sigue siendo del desarrollador.

Los observadores de la industria verán cómo los plataformas competidoras pueden igualar la pila integrada de OpenAI. ElevenLabs cerró recientemente una ronda de serie D con una valoración de $11 mil millones, apostando por la "tesis del agente", mientras que Deepgram continúa impulsando sus propias ofertas de transcripción de streaming. El próximo trimestre probablemente sea la primera comparación real del mundo de las cargas de trabajo de producción en lugar de demos.

Para los desarrolladores ansiosos por experimentar, OpenAI proporciona una pestaña de Playground y una llamada de SDK que permiten a los usuarios probar los nuevos modelos de inmediato. La combinación de un razonamiento de mayor calidad, una cobertura de idioma más amplia y precios agresivos sugiere que OpenAI no está esperando a que el mercado se ponga al día.

OpenAI presenta GPT‑Realtime‑2 y nuevos modelos de API de voz, reduciendo costos para traducción y transcripción en tiempo real

Puntos clave

También disponible en: