Microsoft AI lanza tres nuevos modelos fundamentales para competir en el mercado de LLM

Microsoft AI, el brazo de investigación de la empresa de tecnología, anunció el lanzamiento de tres modelos multimodales fundamentales: MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2. El modelo de transcripción admite 25 idiomas y es 2,5 veces más rápido que Azure Fast. El modelo de voz puede generar un minuto de audio en un segundo y permite la creación de voces personalizadas. El modelo de imagen, presentado originalmente en MAI Playground, amplía la cartera de AI de Microsoft y está posicionado para ser más asequible que las ofertas de Google y OpenAI.

Nueva cartera de modelos

Microsoft AI, el laboratorio de investigación de la empresa de tecnología, presentó tres nuevos modelos de AI fundamentales. La suite incluye MAI-Transcribe-1, un sistema de transcripción de voz a texto; MAI-Voice-1, un motor de generación de audio; y MAI-Image-2, un modelo de generación de video. Los tres modelos están ahora disponibles a través de Microsoft Foundry, y los modelos de transcripción y voz también están disponibles en MAI Playground.

Rendimiento y capacidades

MAI-Transcribe-1 puede transcribir voz en 25 idiomas diferentes y se informa que es 2,5 veces más rápido que la oferta Azure Fast de Microsoft. MAI-Voice-1 permite a los usuarios producir 60 segundos de audio en un solo segundo y admite la creación de perfiles de voz personalizados. MAI-Image-2, lanzado inicialmente en MAI Playground el 19 de marzo, agrega capacidades de generación de video a la línea de AI multimodal de Microsoft.

Posicionamiento estratégico

El lanzamiento señala la continuación del impulso de Microsoft para desarrollar su propia pila de modelos de AI multimodales y competir con laboratorios de AI rivales, incluso mientras mantiene su vínculo con OpenAI. Los modelos fueron desarrollados por el equipo de superinteligencia MAI, un grupo de investigación de AI liderado por Mustafa Suleyman, el CEO de Microsoft AI, que se formó y anunció en noviembre de 2025. Suleyman enfatizó un enfoque de "AI humanista" que pone a los humanos en el centro y se centra en casos de uso de comunicación práctica.

Microsoft posiciona los nuevos modelos como alternativas rentables a las ofertas de Google y OpenAI, con el objetivo de atraer a los desarrolladores que buscan servicios de AI de alto rendimiento y asequibles.

Precios y disponibilidad

Los precios de los modelos están posicionados para ser más bajos que las soluciones competidoras. MAI-Transcribe-1 comienza en $0,36 por hora, MAI-Voice-1 comienza en $22 por 1 millón de caracteres, y MAI-Image-2 está precio en $5 por 1 millón de tokens de entrada de texto y $33 por 1 millón de tokens de salida de imagen.

A pesar del lanzamiento independiente del modelo, Microsoft reafirmó su asociación continua con OpenAI, señalando que una renegociación reciente de esa asociación permite a la empresa perseguir la investigación de superinteligencia mientras sigue colaborando con OpenAI.

Hardware y ecosistema

Microsoft continúa una estrategia dual en hardware, produciendo sus propios chips mientras también obtiene componentes de proveedores externos, lo que garantiza la flexibilidad para respaldar sus servicios de AI en su ecosistema de nube y productos.