Microsoft AI Lança Três Novos Modelos Fundamentais para Competir no Mercado de LLM

Pontos principais
- Microsoft AI lança três modelos fundamentais: MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2.
- MAI-Transcribe-1 suporta 25 idiomas e é 2,5 vezes mais rápido que o Azure Fast.
- MAI-Voice-1 pode gerar um minuto de áudio em um segundo e permite a criação de vozes personalizadas.
- MAI-Image-2 adiciona capacidades de geração de vídeo e foi lançado inicialmente no MAI Playground em 19 de março.
- Os modelos estão disponíveis por meio da Microsoft Foundry e do MAI Playground.
- Os preços são posicionados para serem mais baixos do que as soluções concorrentes da Google e da OpenAI.
- Os modelos foram desenvolvidos pela equipe MAI Superintelligence, liderada por Mustafa Suleyman, formada em novembro de 2025.
- A Microsoft mantém sua parceria com a OpenAI enquanto expande sua própria pilha de IA.
- A empresa usa tanto chips internos quanto fornecedores externos para suportar os trabalhos de IA.
Microsoft AI, o braço de pesquisa da gigante tecnológica, anunciou o lançamento de três modelos multimodais fundamentais — MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2. O modelo de transcrição suporta 25 idiomas e é 2,5 vezes mais rápido que o Azure Fast. O modelo de voz pode gerar um minuto de áudio em um segundo e permite a criação de vozes personalizadas. O modelo de imagem, originalmente lançado no MAI Playground, expande a carteira de AI da Microsoft e é preço para ser mais barato do que as ofertas concorrentes da Google e da OpenAI.
Nova Carteira de Modelos
Microsoft AI, o laboratório de pesquisa da gigante tecnológica, lançou três novos modelos de IA fundamentais. A suíte inclui MAI-Transcribe-1, um sistema de transcrição de fala para texto; MAI-Voice-1, um motor de geração de áudio; e MAI-Image-2, um modelo de geração de vídeo. Todos os três modelos estão agora acessíveis por meio da Microsoft Foundry, com os modelos de transcrição e voz também disponíveis no MAI Playground.
Desempenho e Capacidades
MAI-Transcribe-1 pode transcrever fala em 25 idiomas diferentes e é relatado como sendo 2,5 vezes mais rápido que a oferta Azure Fast da Microsoft. MAI-Voice-1 permite que os usuários produzam 60 segundos de áudio em um único segundo e suporta a criação de perfis de voz personalizados. MAI-Image-2, inicialmente lançado no MAI Playground em 19 de março, adiciona capacidades de geração de vídeo à linha de IA multimodal da Microsoft.
Posicionamento Estratégico
O lançamento sinaliza a continuação da Microsoft em desenvolver sua própria pilha de modelos de IA multimodais e competir com laboratórios de IA rivais, mesmo enquanto mantém sua parceria com a OpenAI. Os modelos foram desenvolvidos pela equipe MAI Superintelligence, um grupo de pesquisa de IA liderado por Mustafa Suleyman, CEO da Microsoft AI, que foi formado e anunciado em novembro de 2025. Suleyman enfatizou uma abordagem de "Humanist AI" que coloca os humanos no centro e se concentra em casos de uso de comunicação prática.
A Microsoft posiciona os novos modelos como alternativas rentáveis às ofertas da Google e da OpenAI, visando atrair desenvolvedores que buscam serviços de IA de alta performance e acessíveis.
Preços e Disponibilidade
Os preços dos modelos são posicionados para serem mais baixos do que as soluções concorrentes. MAI-Transcribe-1 começa a $0,36 por hora, MAI-Voice-1 começa a $22 por 1 milhão de caracteres, e MAI-Image-2 é preço em $5 por 1 milhão de tokens de entrada de texto e $33 por 1 milhão de tokens de saída de imagem.
Apesar do lançamento independente do modelo, a Microsoft reafirmou sua parceria contínua com a OpenAI, observando que uma renegociação recente dessa parceria permite que a empresa persiga pesquisas de superinteligência enquanto ainda colabora com a OpenAI.
Hardware e Ecossistema
A Microsoft continua uma estratégia dupla em hardware, produzindo seus próprios chips enquanto também obtém componentes de fornecedores externos, garantindo flexibilidade no suporte a seus serviços de IA em toda a sua nuvem e ecossistema de produtos.