OpenAI Apresenta Três Modelos de Voz em Tempo Real, Expandindo a IA para Conversas ao Vivo, Tradução e Transcrição de Streaming

Pontos principais
- OpenAI lançou três novos modelos de áudio: GPT-Realtime-2, GPT-Realtime-Traduzir e GPT-Realtime-Sussurro.
- GPT-Realtime-2 oferece raciocínio de nível GPT-5 em interações de voz ao vivo com uma janela de contexto de 128K tokens.
- GPT-Realtime-Traduzir suporta tradução de fala ao vivo em mais de 70 idiomas de origem e 13 idiomas de destino.
- GPT-Realtime-Sussurro transmite transcrição à medida que os falantes falam, permitindo legendas instantâneas e notas de reunião.
- Os primeiros adotantes incluem Zillow (pesquisa de casa por voz), Priceline (gerenciamento de viagem por voz) e Vimeo (legendagem ao vivo).
- O preço começa em $0,017 por minuto para Sussurro, $0,034 por minuto para Traduzir e $32 por milhão de tokens de áudio para GPT-Realtime-2.
OpenAI anunciou três novos modelos de áudio para sua API em Tempo Real - GPT-Realtime-2, GPT-Realtime-Traduzir e GPT-Realtime-Sussurro. A suíte impulsiona a IA de voz além de simples trocas de diálogo, oferecendo raciocínio ao vivo, tradução em tempo real em mais de 70 idiomas e transcrição de streaming. Desenvolvedores agora podem criar assistentes que agendam visitas a casas, gerenciam reservas de viagem ou fornecem legendas em tempo real, enquanto o preço começa em $0,017 por minuto para Sussurro e $0,034 por minuto para Traduzir, com GPT-Realtime-2 cobrado em $32 por milhão de tokens de áudio.
OpenAI lançou três novos modelos de áudio na terça-feira, dando aos desenvolvedores uma caixa de ferramentas que move a IA de voz de respostas pré-escritas para interações em tempo real e fluidas. O modelo de destaque, GPT-Realtime-2, traz o poder de raciocínio do GPT-5 para diálogos falados ao vivo. Ele pode manipular várias ferramentas em uma única solicitação, narrar suas ações e manter a coerência ao longo de trocas mais longas graças a um contexto de janela de 128K tokens. Desenvolvedores também podem ajustar o esforço de raciocínio do modelo para cima ou para baixo, correspondendo ao computador à complexidade da consulta do usuário.
Equally impressionante é o GPT-Realtime-Traduzir, que a OpenAI afirma ser a aproximação mais próxima do Tradutor Universal da Star Trek. O modelo suporta tradução de fala ao vivo de mais de 70 idiomas de origem para 13 idiomas de destino. Em footage de demonstração, um novo participante que fala um idioma diferente se juntou a uma conversa em andamento e o sistema renderizou instantaneamente ambos os falantes em inglês sem perder o ritmo.
O terceiro oferecimento, GPT-Realtime-Sussurro, aborda uma limitação de longa data dos serviços de fala-para-texto: latência. Ao contrário dos modelos de transcrição em lote que esperam que o falante pause, Sussurro transmite texto à medida que as palavras são faladas. A capacidade é ideal para legendas ao vivo, notas de reunião e qualquer fluxo de trabalho onde esperar por uma transcrição completa seria um gargalo.
OpenAI abriu os modelos para desenvolvedores hoje, e várias empresas já os estão testando. A plataforma de imóveis Zillow está prototipando um assistente de voz que pode pesquisar listagens e agendar visitas com um único comando falado. O agregador de viagens Priceline está experimentando com gerenciamento de voos e hotéis impulsionado por voz, incluindo cancelamentos e rebookings. O serviço de hospedagem de vídeo Vimeo planeja incorporar Sussurro para legendagem em tempo real de transmissões ao vivo.
O preço varia por modelo. Sussurro custa $0,017 por minuto de áudio, Traduzir é $0,034 por minuto, e GPT-Realtime-2 é cobrado em $32 por cada milhão de tokens de áudio de entrada. A estrutura em camadas reflete as diferentes demandas de computação de transcrição, tradução e raciocínio em escala completa.
Observadores da indústria veem o lançamento como um momento crucial para aplicações de voz em primeiro lugar. Ao combinar raciocínio profundo, tradução multilíngue e transcrição instantânea, OpenAI fornece aos desenvolvedores os blocos de construção para criar assistentes que podem agendar compromissos, resolver problemas e facilitar a colaboração entre idiomas - tudo sem que o usuário precise digitar uma única palavra.