Google Gemini Adiciona Capacidade de Upload de Arquivos de Áudio

O Google expandiu seu assistente de IA Gemini para aceitar uploads de arquivos de áudio, permitindo que os usuários obtenham transcrições, resumos e informações-chave de gravações de até dez minutos de duração. A funcionalidade, descrita como a adição mais solicitada pelo vice-presidente do Gemini, Josh Woodward, funciona por meio de aplicativos web e móveis e complementa as interações de voz em tempo real do Gemini Live. Embora os usuários da camada gratuita enfrentem limites diários e os detalhes de preços permaneçam não divulgados, a atualização posiciona o Gemini ao lado de concorrentes como o Claude da Anthropic e o Perplexity, que também oferecem ferramentas de processamento de áudio.

Nova Funcionalidade de Upload de Áudio

O assistente de IA do Google, Gemini, agora suporta o upload de arquivos de áudio. Os usuários podem enviar gravações por meio da interface web ou de aplicativos móveis, e o Gemini irá transcrever automaticamente o conteúdo, gerar resumos concisos e extrair detalhes-chave. A funcionalidade lida com arquivos de até dez minutos de duração, tornando-a adequada para memos de voz curtos, trechos de reuniões, trechos de aulas e cliques de entrevistas.

Motivação e Posicionamento

A adição foi destacada pelo vice-presidente do Gemini, Josh Woodward, como a melhoria mais solicitada pela comunidade de usuários. Diferentemente do Gemini Live, que se concentra em comandos de voz em tempo real, a nova capacidade processa áudio pré-gravado como um formato de dados semelhante a texto ou imagens, simplificando o fluxo de trabalho para usuários que anteriormente dependiam de serviços de transcrição separados.

Como Funciona

Após selecionar um arquivo de áudio por meio do diálogo de upload padrão, o Gemini retorna uma transcrição completa e saídas opcionais, como linguagem simplificada, trechos específicos de falantes, geração de perguntas ou criação de guias de estudo. A capacidade da ferramenta de extrair itens de ação da transcrição é destacada como um benefício prático para organização pessoal e tarefas profissionais.

Limitações e Preços

Os limites atuais restringem cada upload a dez minutos, e as contas da camada gratuita estão sujeitas a limites de uso diários. O Google não divulgou um modelo de preços detalhado para processamento de áudio de alto volume, observando que a funcionalidade está incluída na cota regular do Gemini.

Paisagem Competitiva

Outros assistentes de IA também oferecem capacidades de manipulação de áudio. O Claude da Anthropic inclui recursos de áudio em certas ferramentas de desenvolvedor, enquanto o Perplexity pode extrair informações de vídeos do YouTube. A integração do Gemini de uploads de áudio adiciona uma opção direta e focada no consumidor que compete com essas alternativas.

Implicações

O lançamento reflete uma tendência mais ampla de plataformas de IA expandindo o suporte multimodal para corresponder à forma como os usuários capturam informações. Ao transformar gravações de voz em texto pesquisável e de ação, o Gemini visa reduzir a dependência de serviços de transcrição de terceiros e melhorar a produtividade para uma variedade de cenários do dia a dia.