Microsoft AI Lança Três Novos Modelos Fundamentais para Competir no Mercado de LLM

Microsoft AI, o braço de pesquisa da gigante tecnológica, anunciou o lançamento de três modelos multimodais fundamentais — MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2. O modelo de transcrição suporta 25 idiomas e é 2,5 vezes mais rápido que o Azure Fast. O modelo de voz pode gerar um minuto de áudio em um segundo e permite a criação de vozes personalizadas. O modelo de imagem, originalmente lançado no MAI Playground, expande a carteira de AI da Microsoft e é preço para ser mais barato do que as ofertas concorrentes da Google e da OpenAI.

Nova Carteira de Modelos

Microsoft AI, o laboratório de pesquisa da gigante tecnológica, lançou três novos modelos de IA fundamentais. A suíte inclui MAI-Transcribe-1, um sistema de transcrição de fala para texto; MAI-Voice-1, um motor de geração de áudio; e MAI-Image-2, um modelo de geração de vídeo. Todos os três modelos estão agora acessíveis por meio da Microsoft Foundry, com os modelos de transcrição e voz também disponíveis no MAI Playground.

Desempenho e Capacidades

MAI-Transcribe-1 pode transcrever fala em 25 idiomas diferentes e é relatado como sendo 2,5 vezes mais rápido que a oferta Azure Fast da Microsoft. MAI-Voice-1 permite que os usuários produzam 60 segundos de áudio em um único segundo e suporta a criação de perfis de voz personalizados. MAI-Image-2, inicialmente lançado no MAI Playground em 19 de março, adiciona capacidades de geração de vídeo à linha de IA multimodal da Microsoft.

Posicionamento Estratégico

O lançamento sinaliza a continuação da Microsoft em desenvolver sua própria pilha de modelos de IA multimodais e competir com laboratórios de IA rivais, mesmo enquanto mantém sua parceria com a OpenAI. Os modelos foram desenvolvidos pela equipe MAI Superintelligence, um grupo de pesquisa de IA liderado por Mustafa Suleyman, CEO da Microsoft AI, que foi formado e anunciado em novembro de 2025. Suleyman enfatizou uma abordagem de "Humanist AI" que coloca os humanos no centro e se concentra em casos de uso de comunicação prática.

A Microsoft posiciona os novos modelos como alternativas rentáveis às ofertas da Google e da OpenAI, visando atrair desenvolvedores que buscam serviços de IA de alta performance e acessíveis.

Preços e Disponibilidade

Os preços dos modelos são posicionados para serem mais baixos do que as soluções concorrentes. MAI-Transcribe-1 começa a $0,36 por hora, MAI-Voice-1 começa a $22 por 1 milhão de caracteres, e MAI-Image-2 é preço em $5 por 1 milhão de tokens de entrada de texto e $33 por 1 milhão de tokens de saída de imagem.

Apesar do lançamento independente do modelo, a Microsoft reafirmou sua parceria contínua com a OpenAI, observando que uma renegociação recente dessa parceria permite que a empresa persiga pesquisas de superinteligência enquanto ainda colabora com a OpenAI.

Hardware e Ecossistema

A Microsoft continua uma estratégia dupla em hardware, produzindo seus próprios chips enquanto também obtém componentes de fornecedores externos, garantindo flexibilidade no suporte a seus serviços de IA em toda a sua nuvem e ecossistema de produtos.