OpenAI agrega voz en tiempo real, traducción y transcripción a su API

Puntos clave
- OpenAI agrega tres modelos de inteligencia de voz a su API: GPT-Realtime-2, GPT-Realtime-Traducir, GPT-Realtime-Susurro.
- GPT-Realtime-2 utiliza razonamiento de clase GPT-5 para tareas conversacionales complejas.
- El modelo de traducción admite más de 70 idiomas de entrada y 13 idiomas de salida en tiempo real.
- Susurro proporciona transcripción de habla a texto en vivo facturada por minuto.
- Tarifa: traducción y transcripción por minuto; modelo conversacional por token.
- Los usuarios objetivo incluyen plataformas de servicio al cliente, educación, medios, eventos y creadores.
- Salvaguardias incorporadas detienen interacciones que violan las pautas de contenido dañino.
- Todos los modelos se acceden a través de la API en tiempo real de OpenAI.
OpenAI anunció el jueves que su API ahora admite tres nuevos modelos enfocados en la voz: GPT-Realtime-2, GPT-Realtime-Traducir y GPT-Realtime-Susurro. La suite permite a los desarrolladores crear aplicaciones que pueden conversar, traducir y transcribir el habla en tiempo real, con soporte para más de 70 idiomas de entrada y 13 idiomas de salida. La facturación se divide entre tarifas por minuto para la traducción y la transcripción y precios basados en tokens para el modelo conversacional. OpenAI afirma que las herramientas están dirigidas a plataformas de servicio al cliente, educación, medios y creadores, e incluye salvaguardias para prevenir el mal uso.
OpenAI presentó una tríada de modelos de inteligencia de voz para su API el jueves, lo que marca un cambio de los sistemas de llamada y respuesta simples a interfaces de audio más versátiles. El modelo insignia, GPT-Realtime-2, se basa en el anterior GPT-Realtime-1.5 pero funciona con razonamiento de clase GPT-5, lo que le permite manejar solicitudes de usuario complejas mientras mantiene un tono conversacional natural.
Junta con el nuevo modelo conversacional, OpenAI introdujo GPT-Realtime-Traducir, un motor de traducción en tiempo real que admite más de 70 idiomas de origen y puede producir habla en 13 idiomas de destino. La empresa describe el servicio como que mantiene el ritmo con un hablante, entregando traducciones fluidas y conscientes del contexto a medida que se desarrolla el diálogo.
La tercera adición, GPT-Realtime-Susurro, proporciona conversión de habla a texto en vivo. Los usuarios pueden capturar palabras habladas a medida que ocurren, convirtiendo flujos de audio en transcritos precisos sin un paso de postprocesamiento separado.
Todos los tres modelos están accesibles a través de la API en tiempo real de OpenAI. La tarifa difiere por función: la traducción y la transcripción se facturan por minuto, mientras que el modelo conversacional sigue un consumo basado en tokens. Esta estructura da a los desarrolladores flexibilidad para gestionar los costos en función de los patrones de uso.
OpenAI resaltó varios sectores que podrían beneficiarse de las nuevas capacidades. Las plataformas de servicio al cliente pueden desplegar agentes de voz que escuchan, razonan y actúan dentro de una sola interacción. Las herramientas educativas pueden utilizar la traducción en tiempo real para salvar las barreras lingüísticas, mientras que los medios y los organizadores de eventos pueden automatizar la creación de subtítulos y la cobertura multilingüe. Las plataformas de creadores pueden ganar con una integración de voz sin problemas que mejora la participación del usuario.
Reconociendo el potencial de abuso, OpenAI incorporó salvaguardias en los modelos. Desencadenadores específicos pausarán las conversaciones que violen la política de contenido dañino de la empresa, con el objetivo de prevenir el spam, el fraude y otras actividades maliciosas. La empresa enfatizó que estas salvaguardias forman parte de su esfuerzo más amplio para garantizar la implementación responsable de herramientas de inteligencia artificial poderosas.
Los observadores de la industria señalan que el anuncio amplía la ventaja competitiva de OpenAI en el mercado de inteligencia de voz en el que está creciendo rápidamente. Al ofrecer una sola API que maneja la conversación, la traducción y la transcripción, la empresa reduce la necesidad de que los desarrolladores combinen múltiples servicios. El movimiento podría acelerar la adopción de interfaces de voz en una variedad de aplicaciones, desde asistentes virtuales hasta soporte multilingüe en tiempo real.