Mistral AI lanza el modelo de voz de código abierto Voxtral TTS

Mistral AI, una empresa francesa de inteligencia artificial, ha introducido Voxtral TTS, un modelo de texto a voz de código abierto diseñado para funcionar en tiempo real en dispositivos de borde. El modelo admite nueve idiomas, se puede personalizar con una muestra de voz de menos de cinco segundos y ofrece un tiempo de audio inicial de 90 ms con un factor de tiempo real de 6×. Mistral posiciona el modelo como una alternativa de bajo costo y alta calidad para asistentes de voz empresariales, doblaje y traducción en tiempo real, compitiendo directamente con jugadores establecidos como ElevenLabs, Deepgram y OpenAI.

Introducción

Mistral AI, una empresa francesa de inteligencia artificial, anunció el lanzamiento de Voxtral TTS, un modelo de texto a voz de código abierto. El modelo está diseñado para funcionar en una variedad de dispositivos de borde, desde relojes inteligentes hasta laptops, ofreciendo una solución rentable para empresas que buscan aplicaciones habilitadas para voz.

Capacidades multilingües

Voxtral TTS admite nueve idiomas, incluyendo inglés, francés, alemán, español, holandés, portugués, italiano, hindi y árabe. El modelo puede cambiar entre idiomas sin perder las características distintivas de una voz personalizada, lo que lo hace adecuado para escenarios de doblaje y traducción en tiempo real.

Personalización y fidelidad de voz

El sistema puede adaptar una voz personalizada utilizando una muestra de menos de cinco segundos. Captura acentos sutiles, inflexiones, entonaciones e irregularidades, apuntando a un sonido similar al humano en lugar de un tono robótico.

Métricas de rendimiento

Diseñado para su uso en tiempo real, Voxtral TTS logra un tiempo de audio inicial (TTFA) de 90 ms para una entrada de 10 segundos y 500 caracteres. Su factor de tiempo real (RTF) de 6× significa que un clip de 10 segundos se renderiza en aproximadamente 1,6 segundos.

Posicionamiento estratégico

Al ofrecer un modelo de código abierto y personalizable, Mistral busca atraer a empresas que desean ajustar la tecnología de voz a sus necesidades específicas. La empresa destaca el bajo costo del modelo en comparación con las soluciones competidoras y su idoneidad para integrarse en una plataforma multimodal más amplia que procesa audio, texto e imágenes.

Perspectiva futura

Mistral lanzó previamente modelos de transcripción para procesamiento por lotes y procesamiento en tiempo real de baja latencia. Con Voxtral TTS, la empresa busca proporcionar una suite completa de productos de voz, posicionándose contra competidores como ElevenLabs, Deepgram y OpenAI, mientras enfatiza una plataforma de extremo a extremo para aplicaciones de inteligencia artificial multimodal.