Google Gemini Agrega Capacidad de Carga de Archivos de Audio

Google ha expandido su asistente de inteligencia artificial Gemini para aceptar cargas de archivos de audio, lo que permite a los usuarios obtener transcripciones, resúmenes y información clave de grabaciones de hasta diez minutos de duración. La función, descrita como la adición más solicitada por el vicepresidente de Gemini, Josh Woodward, funciona a través de la web y las aplicaciones móviles y complementa las interacciones de voz en tiempo real de Gemini Live. Mientras que los usuarios de la versión gratuita enfrentan límites diarios y los detalles de precios siguen sin revelarse, la actualización posiciona a Gemini junto a competidores como Anthropic's Claude y Perplexity, que también ofrecen herramientas de procesamiento de audio.

Nueva Función de Carga de Audio

El asistente de inteligencia artificial de Google, Gemini, ahora admite la carga de archivos de audio. Los usuarios pueden enviar grabaciones a través de la interfaz web o aplicaciones móviles, y Gemini transcribirá automáticamente el contenido, generará resúmenes concisos y extraerá detalles clave. La funcionalidad maneja archivos de hasta diez minutos de duración, lo que la hace adecuada para notas de voz cortas, fragmentos de reuniones, extractos de conferencias y clips de entrevistas.

Motivación y Posicionamiento

La adición fue destacada por el vicepresidente de Gemini, Josh Woodward, como la mejora más solicitada por la comunidad de usuarios. A diferencia de Gemini Live, que se centra en comandos de voz en tiempo real, la nueva capacidad procesa audio pregrabado como un formato de datos similar al texto o las imágenes, simplificando el flujo de trabajo para los usuarios que anteriormente dependían de servicios de transcripción separados.

Cómo Funciona

Después de seleccionar un archivo de audio a través del diálogo de carga estándar, Gemini devuelve una transcripción completa y salidas opcionales como lenguaje simplificado, extractos específicos del hablante, generación de preguntas o creación de guías de estudio. La capacidad de la herramienta para extraer elementos acciónables del transcripción se destaca como un beneficio práctico para la organización personal y las tareas profesionales.

Límites y Precios

Los límites actuales restringen cada carga a diez minutos, y las cuentas de la versión gratuita están sujetas a límites de uso diarios. Google no ha lanzado un modelo de precios detallado para el procesamiento de audio de alto volumen, señalando que la función está incluida dentro de la cuota regular de Gemini.

Paisaje Competitivo

Otros asistentes de inteligencia artificial también ofrecen capacidades de manejo de audio. Anthropic's Claude incluye características de audio en ciertas herramientas para desarrolladores, mientras que Perplexity puede extraer información de videos de YouTube. La integración de Gemini de cargas de audio agrega una opción directa y centrada en el consumidor que compite con estas alternativas.

Implicaciones

La implementación refleja una tendencia más amplia de las plataformas de inteligencia artificial que expanden el soporte multimodal para coincidir con la forma en que los usuarios capturan información. Al convertir grabaciones de voz en texto searchable y acciónables, Gemini busca reducir la dependencia de servicios de transcripción de terceros y mejorar la productividad para una variedad de escenarios cotidianos.