Cohere presenta el modelo de voz de código abierto "Transcribe" para reconocimiento automático del habla

La empresa de inteligencia artificial Cohere lanzó su primer modelo de voz, Transcribe, un sistema de reconocimiento automático del habla de código abierto construido con 2 mil millones de parámetros. Diseñado para tarjetas gráficas de consumo, el modelo admite 14 idiomas y afirma tener una tasa de error de palabras del 5,42 en la clasificación de Hugging Face Open ASR, superando a varios competidores. Cohere planea integrar Transcribe en su plataforma de orquestación North, ofrecer acceso a la API de forma gratuita y alojarlo en su servicio Model Vault. La implementación sigue informes de $240 millones en ingresos recurrentes anuales y sugiere una posible oferta pública inicial en un plazo próximo.

Presentando Transcribe

Cohere, una empresa de inteligencia artificial enfocada en empresas, anunció el lanzamiento de su modelo de voz inaugural llamado Transcribe. El modelo es de código abierto y se dirige a casos de uso de reconocimiento automático del habla (ASR) como la toma de notas y el análisis del habla. Con un tamaño relativamente modesto de 2 mil millones de parámetros, Transcribe puede ejecutarse en unidades de procesamiento gráfico de consumo, lo que hace que el autoalojamiento sea factible para una amplia gama de desarrolladores.

Cobertura de idiomas y rendimiento

Transcribe actualmente admite catorce idiomas: inglés, francés, alemán, italiano, español, portugués, griego, holandés, polaco, chino, japonés, coreano, vietnamita y árabe. En la clasificación de Hugging Face Open ASR, el modelo logró una tasa de error de palabras promedio (WER) de 5,42, lo que Cohere afirma es menor que cualquier otro modelo en esa clasificación. Evaluadores humanos dieron a Transcribe una tasa de victoria del 61 por ciento sobre los sistemas competidores al evaluar la precisión, la coherencia y la usabilidad. El modelo se desempeñó menos bien en portugués, alemán y español, donde se quedó atrás de algunos rivales.

Velocidad y planes de integración

Cohere informa que Transcribe puede procesar 525 minutos de audio en un solo minuto, un alto rendimiento para un modelo de su clase. La empresa planea integrar el modelo en su plataforma de orquestación de agentes empresariales, North, y hará que el modelo esté disponible a través de una API gratuita. Además, Transcribe se alojará en Model Vault, la plataforma de inferencia administrada de Cohere, lo que dará a los clientes una opción de servicio administrado.

Contexto de mercado y perspectivas de la empresa

El lanzamiento se produce en un momento en que la demanda de herramientas de reconocimiento del habla crece, impulsada por aplicaciones de toma de notas y dictado como Granola y Wispr Flow. A principios de este año, Cohere informó a los inversores que generó $240 millones en ingresos recurrentes anuales para 2025, y su CEO, Aidan Gomez, indicó que la startup puede salir a bolsa "pronto".

Detalles del evento

El anuncio se hizo en un evento de TechCrunch en San Francisco, California, celebrado del 13 al 15 de octubre de 2026.