Microsoft Presenta Nuevos Modelos de Voz, Transcripción y Imagen de Inteligencia Artificial

Microsoft Unveils New Voice, Transcription and Image AI Models

Puntos clave

  • Microsoft lanza tres nuevos modelos de inteligencia artificial: generación de voz, transcripción multilingüe y un modelo de imagen de segunda generación.
  • El modelo de transcripción admite la conversión de texto en 25 idiomas para la subtitulación de videos, reuniones y agentes de voz.
  • El modelo de voz puede producir clips de audio de hasta 60 segundos de duración.
  • El nuevo modelo de imagen ofrece una generación más rápida y visualizaciones más realistas que su predecesor.
  • Los tres modelos están disponibles ahora en la Foundry y el playground de MAI de Microsoft, con planes para integrar el modelo de imagen en Bing y PowerPoint.
  • El lanzamiento amplía la cartera de inteligencia artificial de Microsoft más allá de las herramientas centradas en texto y complementa su suite Copilot.
  • Los recursos financieros y de cómputo de Microsoft permiten proyectos de medios generativos ambiciosos que las empresas de inteligencia artificial más pequeñas encuentran desafiantes.
  • Los competidores como OpenAI y Google están ajustando sus estrategias, con OpenAI discontinuando su aplicación de video Sora y Google centrándose en modelos de video de eficiencia energética.

Microsoft anunció tres nuevos modelos de inteligencia artificial: un modelo de voz que puede generar clips de audio de hasta 60 segundos, un modelo de transcripción que convierte grabaciones en texto en 25 idiomas, y un modelo de imagen de segunda generación que ofrece resultados más rápidos y realistas. Los modelos están disponibles en la Foundry y el playground de MAI de Microsoft, con planes para integrar el modelo de imagen en Bing y PowerPoint. La implementación refleja el impulso de Microsoft para ampliar su cartera de inteligencia artificial más allá de las herramientas centradas en texto, complementando su suite Copilot y destacando los recursos profundos de la empresa para los medios generativos de nivel empresarial.

Microsoft Amplía su Cartera de Inteligencia Artificial con Nuevos Modelos de Voz, Transcripción y Imagen

Microsoft ha introducido tres nuevos modelos de inteligencia artificial que marcan una expansión significativa más allá de su enfoque tradicional en grandes modelos de lenguaje. Los dos primeros modelos se centran en capacidades de audio: un modelo de voz capaz de crear grabaciones de audio de hasta 60 segundos de duración, y un modelo de transcripción que puede traducir grabaciones habladas en texto en 25 idiomas diferentes. Ambos modelos están diseñados para aplicaciones prácticas como la subtitulación de videos, la transcripción de reuniones y el funcionamiento de agentes basados en voz.

La tercera oferta es la segunda generación del modelo de imagen de Microsoft. En comparación con su predecesor, el nuevo modelo de imagen genera visualizaciones más rápidamente y produce representaciones notablemente más realistas. Microsoft ha hecho que estos modelos estén inmediatamente accesibles a través de su plataforma Foundry y el playground de MAI, y ha delineado planes futuros para integrar el modelo de imagen, denominado MAI-Image-2, en productos ampliamente utilizados como Bing y PowerPoint.

Estos lanzamientos señalan la estrategia más amplia de Microsoft para diversificar sus servicios de inteligencia artificial y proporcionar herramientas amigables para empresas que complementen su popular suite Copilot. Copilot, que se integra estrechamente con la suite Office 365 y los servicios de nube Azure, se ha convertido en un elemento esencial para las empresas que buscan productividad mejorada con inteligencia artificial. Además de los modelos recién anunciados, Microsoft ha lanzado recientemente Copilot Cowork y Copilot Health, demostrando aún más su compromiso para ofrecer soluciones de inteligencia artificial seguras y de nivel empresarial.

Los recursos financieros profundos de Microsoft y su infraestructura de cómputo extensa permiten a la empresa perseguir "misiones secundarias" en medios generativos, esfuerzos que incluso las startups bien financiadas a veces no pueden sostener. La capacidad de la empresa para invertir pesadamente en nuevas capacidades de inteligencia artificial se destaca en contraste con los movimientos recientes de los competidores. Por ejemplo, OpenAI anunció la discontinuación de su aplicación de generación de video Sora para refocarse en actividades centrales, destacando los desafíos que enfrentan los jugadores más pequeños al escalar cargas de trabajo de medios generativos.

La industria de inteligencia artificial en general en 2026 continúa enfatizando la relevancia en el lugar de trabajo, con empresas como Anthropic haciendo avances a través de modelos como Claude Code. Al mismo tiempo, el sector se enfrenta a las altas demandas de cómputo y energía de los medios generativos. Google, otro gigante tecnológico legacy, ha reafirmado su compromiso con los medios generativos mientras se compromete a mejorar la eficiencia de costos y energía con nuevas ofertas como el modelo de video Veo 3.1 Lite.

En general, los modelos de inteligencia artificial más recientes de Microsoft subrayan un impulso estratégico para ampliar su ecosistema de inteligencia artificial, ofrecer herramientas de productividad tangibles y aprovechar su escala para mantenerse por delante en un paisaje competitivo que equilibra la innovación con las demandas prácticas de los clientes empresariales.

#Microsoft#inteligencia artificial#modelos de IA#generación de voz#transcripción de habla#generación de imagen#inteligencia artificial empresarial#Copilot#medios generativos#cómputo en la nube

También disponible en:

Microsoft Presenta Nuevos Modelos de Voz, Transcripción y Imagen de Inteligencia Artificial | AI News