Microsoft Lança Três Modelos de IA Internos, Sinalizando Mudança na Parceria com a OpenAI

Pontos principais
- A Microsoft lançou três modelos de IA internos — MAI-Transcribe-1, MAI-Voice-1, MAI-Image-2 — em sua plataforma Foundry.
- MAI-Transcribe-1 alcança uma taxa de erro de palavra de 3,8% em 25 idiomas, superando a OpenAI, o Google e a ElevenLabs em vários benchmarks.
- MAI-Voice-1 gera 60 segundos de áudio em menos de um segundo e suporta a criação de voz personalizada a partir de amostras mínimas.
- MAI-Image-2 ficou em terceiro lugar na leaderboard de texto para imagem do Arena.ai, atrás apenas dos modelos do Google e do OpenAI.
- Os modelos foram construídos por uma equipe de dez pessoas dentro da unidade de superinteligência MAI da Microsoft, liderada pelo CEO Mustafa Suleyman.
- Uma renegociação de contrato com a OpenAI em setembro de 2025 deu à Microsoft a liberdade para desenvolver modelos concorrentes.
- A plataforma Foundry agora atende a mais de 80.000 empresas, incluindo cerca de 80% das empresas da Fortune 500.
- A OpenAI permanece como a maior parceira de IA da Microsoft, mas ambas as empresas agora competem na mesma plataforma.
Seis meses após renegociar seu contrato com a OpenAI, a Microsoft lançou os modelos MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2 em sua plataforma Foundry. Os novos modelos, construídos por uma equipe de dez pessoas, apresentam taxas de erro mais baixas, velocidades mais rápidas e preços competitivos, dando à gigante da tecnologia uma pilha de IA funcional independente de sua antiga parceira.
A Microsoft anunciou o lançamento público de três modelos de inteligência artificial desenvolvidos internamente — MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2 — em sua plataforma Foundry, marcando a primeira saída tangível da equipe de superinteligência MAI da empresa. Os modelos chegam apenas semanas após mudanças no nível executivo que libertaram o CEO Mustafa Suleyman de suas funções diárias de produtos, permitindo que ele se concentre em construir uma suite de ferramentas de IA que operam entirely na infraestrutura da Microsoft.
MAI-Transcribe-1, um sistema de conversão de fala em texto, afirma ter a taxa de erro de palavra mais baixa em 25 idiomas no benchmark FLEURS, com uma média de 3,8 por cento. A Microsoft afirma que ele supera o Whisper-large-v3 da OpenAI em todos os idiomas, bate o Gemini 3.1 Flash do Google em 22 dos 25 idiomas e supera o Scribe v2 da ElevenLabs em 15. O modelo roda 2,5 vezes mais rápido do que o serviço de transcrição rápido do Azure e é precificado em $0,36 por hora de áudio. A equipe de desenvolvimento por trás dele era composta por apenas dez pessoas.
MAI-Voice-1 completa a pipeline de áudio. O modelo de texto para fala pode gerar um minuto de áudio natural em menos de um segundo em uma única GPU e suporta a criação de voz personalizada a partir de apenas alguns segundos de áudio de amostra. Quando combinado com o MAI-Transcribe-1 e um modelo de linguagem grande escolhido pelo cliente, a dupla oferece uma solução de voz completa que não depende de nenhuma tecnologia da OpenAI.
O terceiro oferecimento, MAI-Image-2, entrou na leaderboard de texto para imagem do Arena.ai em março em terceiro lugar, atrás apenas do Gemini 3.1 Flash do Google e do GPT Image 1.5 da OpenAI. Desenvolvido com a contribuição de fotógrafos, designers e contadores de histórias visuais, o modelo já está sendo usado em larga escala pela WPP, um dos maiores grupos de marketing do mundo.
Os lançamentos são mais do que marcos técnicos; eles refletem uma mudança estratégica possibilitada por uma renegociação de contrato com a OpenAI em setembro de 2025. O novo memorando de entendimento concedeu à Microsoft direitos de licenciamento para todas as saídas da OpenAI até 2032, assegurou $250 bilhões em compromissos adicionais de nuvem do Azure e, crucialmente, removeu a cláusula que proibia a Microsoft de construir seus próprios modelos de IA de propósito geral. Suleyman citou a renegociação como o catalisador que permitiu à empresa perseguir sua agenda de "superinteligência humanista".
A plataforma Foundry da Microsoft — anteriormente Azure AI Foundry e Azure AI Studio — agora atende a mais de 80.000 empresas, incluindo cerca de 80 por cento das empresas da Fortune 500. Essa vantagem de distribuição significa que os modelos MAI não precisam dominar todos os benchmarks para mudar os gastos de IA das empresas para soluções construídas pela Microsoft. Eles simplesmente precisam ser competitivos o suficiente para que os clientes escolham uma opção integrada em vez de alternativas de terceiros.
A OpenAI se encontra em uma posição nuances. Embora a Microsoft permaneça seu maior investidor e provedor de nuvem primário, as duas empresas agora compartilham uma plataforma que hospeda tanto a OpenAI quanto os modelos da Microsoft. A rodada de captação de recursos da OpenAI em fevereiro, que arrecadou $110 bilhões e valorizou a empresa independentemente da Microsoft, sugere que a parceria está evoluindo para um mercado onde ambas as partes competem lado a lado.
O panorama mais amplo de IA espelha essa fragmentação. A recente captação de recursos da Anthropic no valor de $30 bilhões e as rápidas iterações do Gemini do Google sublinham um mercado que não é mais dominado por um único provedor de IA de fronteira. A nova família de modelos da Microsoft adiciona um quarto peso pesado à mistura, dando às empresas mais opções e sinalizando que a era de um pipeline de IA exclusivo da OpenAI-Microsoft está terminando.
Suleyman alerta que os modelos atuais são fundamentais. Ele espera que a equipe de superinteligência entregue modelos de linguagem de classe de fronteira dentro de um ou dois anos, mas por agora a tríade fornece à Microsoft sua própria voz, ouvidos e olhos — uma pilha de IA independente que pode redefinir como as empresas alocam seus gastos em IA.