Microsoft Apresenta Novos Modelos de Voz, Transcrição e Imagem de IA

A Microsoft anunciou três novos modelos de inteligência artificial: um modelo de voz que pode gerar clips de áudio de até 60 segundos, um modelo de transcrição que converte gravações em texto em 25 idiomas e um segundo modelo de imagem que oferece resultados mais rápidos e realistas. Os modelos estão disponíveis agora na Foundry e no playground MAI da Microsoft, com planos para integrar o modelo de imagem ao Bing e ao PowerPoint.

Microsoft Expande Portfólio de IA com Novos Modelos de Voz, Transcrição e Imagem

A Microsoft introduziu três novos modelos de inteligência artificial que marcam uma expansão significativa além de seu foco tradicional em grandes modelos de linguagem. Os dois primeiros modelos visam capacidades de áudio: um modelo de voz capaz de criar gravações de áudio de até 60 segundos de duração e um modelo de transcrição que pode traduzir gravações de voz em texto em 25 idiomas diferentes. Ambos os modelos são projetados para aplicações práticas, como legendagem de vídeo, transcrição de reuniões e alimentação de agentes baseados em voz.

A terceira oferta é a segunda geração do modelo de imagem interno da Microsoft. Em comparação com seu antecessor, o novo modelo de imagem gera visuais mais rapidamente e produz representações notavelmente mais realistas. A Microsoft tornou esses modelos imediatamente acessíveis por meio de sua plataforma Foundry e do playground MAI e tem planos para incorporar o modelo de imagem - referido como MAI-Image-2 - em produtos amplamente utilizados, como o Bing e o PowerPoint.

Esses lançamentos sinalizam a estratégia mais ampla da Microsoft para diversificar seus serviços de IA e fornecer ferramentas amigáveis para empresas que complementam sua popular suíte Copilot. O Copilot, que se integra estreitamente à suíte Office 365 e aos serviços de nuvem Azure, se tornou um padrão para empresas que buscam produtividade aprimorada com IA. Além dos modelos recém-anunciados, a Microsoft recentemente lançou o Copilot Cowork e o Copilot Health, demonstrando ainda mais seu compromisso em entregar soluções de IA seguras e de classe empresarial.

Os recursos financeiros profundos e a infraestrutura de computação extensa da Microsoft permitem que a empresa persiga "missões secundárias" em mídia gerativa - esforços que até mesmo startups bem financiadas às vezes não conseguem sustentar. A capacidade da empresa de investir pesadamente em novas capacidades de IA está em contraste com movimentos recentes de concorrentes. Por exemplo, a OpenAI anunciou o descontinuamento de seu aplicativo de geração de vídeo Sora para se concentrar em atividades principais, destacando os desafios que jogadores menores enfrentam ao dimensionar cargas de trabalho de mídia gerativa.

A indústria de IA mais ampla em 2026 continua a enfatizar a relevância no local de trabalho, com empresas como a Anthropic fazendo progressos por meio de modelos como o Claude Code. Ao mesmo tempo, o setor luta com as altas demandas de computação e energia de mídia gerativa. O Google, outro gigante tecnológico legado, reafirmou seu compromisso com a mídia gerativa, prometendo melhorar a eficiência de custo e energia com novas ofertas, como o modelo de vídeo Veo 3.1 Lite.

No geral, os novos modelos de IA da Microsoft sublinham uma impulsionada estratégica para expandir seu ecossistema de IA, entregar ferramentas de produtividade tangíveis e aproveitar sua escala para permanecer à frente em um cenário competitivo que equilibra inovação com as demandas práticas de clientes empresariais.

Microsoft Apresenta Novos Modelos de Voz, Transcrição e Imagem de IA

Pontos principais

Microsoft Expande Portfólio de IA com Novos Modelos de Voz, Transcrição e Imagem

Também disponível em: