Mistral AI lanza modelos de transcripción pequeños y rápidos para dispositivos de borde

Puntos clave
- Mistral AI presentó Voxtral Mini Transcribe 2 y Voxtral Realtime para dispositivos de borde.
- Los modelos mantienen los datos de forma local, mejorando la privacidad para grabaciones sensibles.
- Voxtral Realtime logra menos de 200 ms de latencia para transcripción casi instantánea.
- Admite 13 idiomas y se puede personalizar para vocabularios específicos.
- Disponible a través de la API de Mistral y en Hugging Face con una demo interactiva.
- Las pruebas de benchmark muestran tasas de error más bajas en comparación con los modelos competidores.
- Diseñado para funcionar en teléfonos, laptops y dispositivos wearables sin confianza en la nube.
Mistral AI presentó dos nuevos modelos de transcripción—Voxtral Mini Transcribe 2 y Voxtral Realtime—diseñados para funcionar en dispositivos de borde como teléfonos, laptops y dispositivos wearables. Los modelos compactos priorizan la privacidad al mantener los datos de forma local, y ofrecen un rendimiento de baja latencia, con el modelo en tiempo real que logra menos de 200 milisegundos de retraso. Disponibles a través de la API de Mistral y en Hugging Face, los modelos admiten 13 idiomas y se pueden personalizar para vocabularios específicos, ofreciendo una precisión comparable a la de sistemas más grandes mientras se mantiene la velocidad y el control del usuario.
Nuevos modelos de transcripción orientados a borde
Mistral AI anunció dos modelos de transcripción construidos para la velocidad y la privacidad. Voxtral Mini Transcribe 2 se describe como "super, super pequeño", mientras que Voxtral Realtime proporciona transcripción en vivo adecuada para escenarios de subtítulos cerrados.
Privacidad y procesamiento local
Ambos modelos están diseñados para funcionar directamente en los dispositivos del usuario—teléfonos, laptops o dispositivos wearables—por lo que los datos de audio nunca tienen que viajar a centros de datos remotos. Este procesamiento local aborda las preocupaciones sobre contenido sensible, como conversaciones médicas o legales, que permanecen expuestas en Internet.
Rendimiento y latencia
Funcionar en el borde también reduce la latencia. Voxtral Realtime puede generar transcripciones con un retraso de menos de 200 milisegundos, lo que permite que las palabras habladas aparecen casi tan rápido como se hablan. En las pruebas, el modelo manejó la entrada de inglés y español mezclados con precisión en 13 idiomas admitidos.
Disponibilidad y personalización
Los modelos están accesibles a través de la API de Mistral y se alojan en Hugging Face, con una demo disponible para que los usuarios la prueben. Los usuarios también pueden ajustar los modelos para que reconozcan mejor nombres, jerga o términos de la industria específicos, lo que mejora el rendimiento para tareas especializadas.
Precisión y resultados de benchmark
Mistral destacó los resultados de benchmark que muestran tasas de error más bajas que los modelos competidores, enfatizando que el tamaño pequeño no compromete la calidad. La empresa enfatiza que el objetivo es un modelo compacto que iguala la calidad de los sistemas más grandes.
Recepción pública
Las pruebas iniciales indicaron una velocidad de transcripción y precisión confiables, aunque se notó una mala reconocimiento ocasional de nombres propios. El vicepresidente de operaciones científicas de Mistral, Pierre Stock, indicó que las opciones de personalización pueden abordar dichos problemas.