Google lança Gemini 3.1 Flash Live, um modelo de voz conversacional mais humano

Pontos principais
- Google lançou o Gemini 3.1 Flash Live, um modelo de voz conversacional em tempo real.
- O modelo obteve uma pontuação de 36,1 por cento no Audio MultiChallenge da Scale AI, abaixo dos modelos de áudio não conversacionais que ultrapassam 50 por cento.
- Marcas d'água SynthID são incorporadas na saída de áudio; elas são inaudíveis, mas podem ser detectadas para verificação.
- Parceiros de teste precoces, como Home Depot e Verizon, relataram experiências positivas com o modelo.
- Desenvolvedores podem acessar o modelo por meio do AI Studio, da API Gemini e da Gemini Enterprise para Experiência do Cliente.
- Gemini 3.1 Flash Live será exibido em Gemini Live e Search Live (Modo IA) a partir de hoje.
Google introduziu o Gemini 3.1 Flash Live, um modelo de voz em tempo real projetado para soar mais como uma pessoa. No Audio MultiChallenge da Scale AI, o modelo obteve uma pontuação de 36,1 por cento, atrás de modelos de áudio não conversacionais que ultrapassam 50 por cento.
Google apresenta o Gemini 3.1 Flash Live
Google anunciou o lançamento do Gemini 3.1 Flash Live, um modelo de voz conversacional que visa tornar a fala de IA mais parecida com a de um ser humano. O modelo faz parte da família Gemini e está sendo integrado a vários produtos da Google, incluindo Gemini Live e Search Live, uma funcionalidade do Modo IA.
Em uma avaliação recente realizada pela Scale AI’s Audio MultiChallenge, o Gemini 3.1 Flash Live alcançou uma pontuação de 36,1 por cento. Embora isso coloque o modelo à frente de muitas soluções de áudio em tempo real, ele permanece abaixo dos modelos de áudio não conversacionais que podem atingir pontuações acima de 50 por cento no mesmo teste.
Para ajudar a distinguir a fala gerada por IA da voz humana real, a Google incorporou marcas d'água SynthID na saída do Gemini 3.1 Flash Live. Essas marcas d'água não são audíveis para os ouvintes, mas podem ser detectadas por ferramentas projetadas para verificar a origem do áudio. A Google indicou que as marcas d'água são destinadas a prevenir o uso indevido da tecnologia.
Parceiros de teste precoces, como Home Depot e Verizon, compartilharam feedback positivo sobre o desempenho do modelo. Seus relatórios, destacados em um post de blog da Google, descrevem a capacidade do modelo de imitar a fala humana de forma convincente. Os parceiros observaram que as novas capacidades de voz poderiam melhorar as interações com os clientes em canais telefônicos e digitais.
Agora, os desenvolvedores têm várias maneiras de trabalhar com o Gemini 3.1 Flash Live. O modelo está disponível por meio do AI Studio, da API Gemini e da Gemini Enterprise para Experiência do Cliente. A oferta empresarial é posicionada como uma ferramenta para "compras agênticas", permitindo que as empresas construam experiências conversacionais mais naturais.
A Google enfatizou que o modelo será mais visível em Gemini Live e Search Live, onde os usuários podem experimentar as interações de voz aprimoradas diretamente. O lançamento começa hoje, marcando o último passo nos esforços da Google para tornar os assistentes de IA mais realistas.