OpenAI lança GPT-Realtime-2 e novos modelos de API de voz, reduzindo custos para tradução e transcrição em tempo real

A OpenAI anunciou três novos modelos de inteligência artificial de voz - GPT-Realtime-2, GPT-Realtime-Traduzir e GPT-Realtime-Sussurro - que trazem a capacidade de raciocínio da GPT-5 para áudio em tempo real, tradução em mais de 70 idiomas e transcrição de streaming de baixa latência. O lançamento promete uma troca de turnos mais rápida, chamadas de ferramentas paralelas, controle de tom e uma janela de contexto de 128K, enquanto o preço é inferior à maioria das soluções de empresa. Os primeiros adotantes, como Zillow e BolnaAI, relatam ganhos significativos na taxa de sucesso de chamadas e taxas de erro de palavra, sinalizando uma mudança em direção a agentes de voz integrados e de ponta a ponta.

A OpenAI lançou três novos modelos de voz em sua plataforma de API, posicionando a empresa à frente da inteligência artificial conversacional em tempo real. O modelo principal, GPT-Realtime-2, entrega o que a OpenAI descreve como raciocínio da GPT-5 dentro de um único loop de áudio, eliminando a necessidade de componentes separados de transcrição, síntese e lógica. Um modelo separado, GPT-Realtime-Traduzir, lida com a tradução em tempo real em mais de 70 idiomas de entrada e 13 idiomas de saída. O terceiro modelo, GPT-Realtime-Sussurro, fornece transcrição de streaming de fala com baixa latência.

Os desenvolvedores que construíram agentes de voz tradicionalmente costuram uma mistura de serviços - Whisper ou Deepgram para transcrição, ElevenLabs ou Cartesia para texto-para-fala, e grandes modelos de linguagem, como GPT-4, para raciocínio. A abordagem integrada da OpenAI colapsa essa pilha em um único modelo que ouve e fala enquanto executa raciocínio complexo no meio. O resultado é uma troca de turnos mais suave, menos pausas silenciosas e a capacidade de disparar várias chamadas de ferramentas em paralelo, uma capacidade anteriormente simulada com estruturas de prompt.

O GPT-Realtime-2 introduz várias funcionalidades prontas para produção. As preâmbulos permitem que o assistente diga "vamos verificar isso" enquanto contata serviços de back-end, mantendo o usuário engajado. As chamadas de ferramentas paralelas permitem que o modelo solicite vários recursos ao mesmo tempo e narre qual é o ativo. O comportamento de recuperação exibe erros em vez de congelar a conversa. O modelo também oferece controles de tom, permitindo uma voz mais calma para cenários de suporte ou um tom mais animado para confirmações.

Por baixo dos panos, a janela de contexto expande para 128.000 tokens, quatro vezes o tamanho do limite anterior de 32K. Esse salto torna sessões mais longas e fluxos de agente intricados viáveis sem costura de estado externa. O esforço de raciocínio é exposto como uma chave seletiva - mínimo, baixo, médio, alto e xalto - com baixo como o padrão para preservar a latência. Nos benchmarks internos da OpenAI, o GPT-Realtime-2 com esforço alto superou seu antecessor em 15,2% no teste de áudio Big Bench e 13,8% no benchmark de instruções de seguimento de áudio MultiChallenge.

Os primeiros clientes já veem benefícios mensuráveis. A Zillow registrou um aumento de 26 pontos na taxa de sucesso de chamadas em seu benchmark adversarial mais difícil, subindo de 69% para 95% após mudar para o GPT-Realtime-2. A BolnaAI, que constrói soluções de inteligência artificial de voz para idiomas indianos, relatou uma redução de 12,5% nas taxas de erro de palavra para hindi, tâmil e telugu ao usar o modelo de tradução.

O preço sinaliza a intenção da OpenAI de disruptar o mercado. O GPT-Realtime-2 custa $32 por milhão de tokens de entrada de áudio e $64 por milhão de tokens de saída de áudio, com uma cobrança de $0,40 por tokens de entrada em cache. O GPT-Realtime-Traduzir é cobrado a $0,034 por minuto, aproximadamente um terço de um centavo, abaixo da maioria das pipelines de tradução de empresa. O GPT-Realtime-Sussurro é executado a $0,017 por minuto, metade do custo de serviços de transcrição de streaming comparáveis.

Os cartões de preço agressivos colocam pressão sobre fornecedores como ElevenLabs, Deepgram e outros provedores de infraestrutura de voz que tradicionalmente embalam síntese e inferência por minuto. Embora os modelos da OpenAI removam algum trabalho de integração, os desenvolvedores ainda precisam implementar guardrails, verificações de conformidade, ajustes de voz de marca e análise antes do deploy. A OpenAI fornece classificadores ativos e opções de residência de dados da UE, mas a responsabilidade de construir um agente de voz completo e pronto para produção permanece com o desenvolvedor.

Os observadores da indústria vão assistir como os plataformas concorrentes podem igualar a pilha integrada da OpenAI. A ElevenLabs recentemente fechou uma rodada de série D em uma valorização de $11 bilhões, apostando na "tese do agente", enquanto a Deepgram continua a impulsionar suas próprias ofertas de transcrição de streaming. O próximo trimestre provavelmente será a primeira comparação real do mundo de cargas de trabalho de produção em vez de demos.

Para os desenvolvedores ansiosos para experimentar, a OpenAI fornece uma guia de Playground e uma chamada de SDK que permitem que os usuários testem os novos modelos imediatamente. A combinação de raciocínio de alta qualidade, cobertura de idioma mais ampla e preços agressivos sugere que a OpenAI não está esperando que o mercado se ajuste.

OpenAI lança GPT-Realtime-2 e novos modelos de API de voz, reduzindo custos para tradução e transcrição em tempo real

Pontos principais

Também disponível em: