OpenAI adiciona voz em tempo real, tradução e transcrição à sua API

OpenAI anunciou na quinta-feira que sua API agora suporta três novos modelos de voz - GPT-Realtime-2, GPT-Realtime-Traduzir e GPT-Realtime-Sussurro. A suíte permite que os desenvolvedores construam aplicações que possam conversar, traduzir e transcrever discurso em tempo real, com suporte a mais de 70 idiomas de entrada e 13 idiomas de saída. A cobrança é dividida entre taxas por minuto para tradução e transcrição e preços baseados em tokens para o modelo conversacional. OpenAI afirma que as ferramentas visam plataformas de atendimento ao cliente, educação, mídia e criadores, e incluem barreiras para evitar o uso indevido.

OpenAI lançou uma tríade de modelos de inteligência de voz para sua API na quinta-feira, sinalizando uma mudança de sistemas de chamada e resposta simples para interfaces de áudio mais versáteis. O modelo principal, GPT-Realtime-2, é baseado no modelo GPT-Realtime-1.5 anterior, mas executa o raciocínio da classe GPT-5, permitindo que ele lide com solicitações de usuário complexas enquanto mantém um tom conversacional natural.

Além do novo modelo conversacional, OpenAI introduziu o GPT-Realtime-Traduzir, um mecanismo de tradução em tempo real que suporta mais de 70 idiomas de origem e pode produzir discurso em 13 idiomas de destino. A empresa descreve o serviço como capaz de acompanhar um orador, fornecendo traduções fluentes e conscientes do contexto à medida que o diálogo se desenrola.

A terceira adição, GPT-Realtime-Sussurro, fornece conversão de fala em texto em tempo real. Os usuários podem capturar palavras faladas à medida que ocorrem, transformando fluxos de áudio em transcrições precisas sem um passo de pós-processamento separado.

Todos os três modelos estão acessíveis por meio da API em Tempo Real da OpenAI. O preço difere por função: tradução e transcrição são cobradas por minuto, enquanto o modelo conversacional segue um consumo baseado em tokens. Essa estrutura fornece aos desenvolvedores flexibilidade no gerenciamento de custos com base nos padrões de uso.

OpenAI destacou vários setores que podem se beneficiar das novas capacidades. Plataformas de atendimento ao cliente podem implantar agentes de voz que ouvem, raciocinam e agem dentro de uma única interação. Ferramentas educacionais podem usar a tradução em tempo real para superar barreiras linguísticas, enquanto veículos de mídia e organizadores de eventos podem automatizar a legendagem e a cobertura multilíngue. Plataformas de criadores podem se beneficiar da integração de voz sem interrupções que melhora o engajamento do usuário.

Reconhecendo o potencial para abuso, OpenAI incorporou salvaguardas nos modelos. Gatilhos específicos pausam conversas que violam a política de conteúdo prejudicial da empresa, visando prevenir spam, fraude e outras atividades maliciosas. A empresa enfatizou que essas barreiras fazem parte de seus esforços mais amplos para garantir a implantação responsável de ferramentas de IA poderosas.

Observadores da indústria notam que o anúncio expande a vantagem competitiva da OpenAI no mercado de IA de voz em rápido crescimento. Ao oferecer uma única API que lida com conversa, tradução e transcrição, a empresa reduz a necessidade de os desenvolvedores costurarem múltiplos serviços. A medida pode acelerar a adoção de interfaces de voz em uma variedade de aplicações, desde assistentes virtuais até suporte multilíngue em tempo real.

OpenAI adiciona voz em tempo real, tradução e transcrição à sua API

Pontos principais

Também disponível em: