ChatGPT Voice Mode Trae la Inteligencia Artificial Conversacional sin Manos a los Usuarios

OpenAI's ChatGPT ahora incluye un Modo de Voz que permite a los usuarios hablar con el chatbot y escuchar respuestas habladas, creando una conversación natural de ida y vuelta. La función funciona en móviles, escritorios y aplicaciones web, con una opción de voz standard para todos los usuarios y una opción de voz avanzada para suscriptores pagos que aprovecha las capacidades multimodales.

Presentando el Modo de Voz

El Modo de Voz de ChatGPT agrega una interfaz hablada que permite a los usuarios preguntar en voz alta y recibir respuestas habladas. El icono de voz aparece en la esquina inferior derecha de cualquier conversación, y un solo toque activa la función de escucha. Una vez que el usuario habla, el sistema transcribe el audio, procesa la solicitud con su modelo de lenguaje y responde de manera audible. Después de cada respuesta, el sistema reanuda automáticamente la escucha, permitiendo un diálogo fluido y de ida y vuelta sin la necesidad de teclear.

Opciones Standard y Avanzadas

Se ofrecen dos versiones de la experiencia de voz. La opción de voz standard, disponible para todos los usuarios, convierte el habla en texto antes de procesar la consulta. La opción de voz avanzada, reservada para suscriptores pagos, utiliza un modelo multimodal que puede "escuchar" al usuario directamente y generar audio en tiempo real, permitiendo una conversación más natural que puede captar el tono y el ritmo.

Conveniencia sin Manos

La naturaleza sin manos del Modo de Voz lo hace útil en situaciones donde teclear es inconveniente. Los usuarios pueden mantener la aplicación abierta e interactuar mientras conducen, cocinan o se mueven, recibiendo respuestas sobre planes de viaje, sugerencias de restaurantes u otras consultas sobre la marcha sin tocar su dispositivo.

Aprendizaje de Idiomas y Accesibilidad

El Modo de Voz también admite el aprendizaje de idiomas, permitiendo a los usuarios conversar en un idioma mientras reciben respuestas en otro, completo con orientación sobre la pronunciación. Para personas con baja visión, dislexia o desafíos de habilidades motoras, hablar y escuchar reemplaza la necesidad de teclear extensivamente, proporcionando una forma más accesible de interactuar con la IA.

Consultas Visuales en el Mundo Real

Con las capacidades multimodales de la voz avanzada, los usuarios pueden activar la cámara de su dispositivo, capturar una imagen o video y pedirle al asistente que identifique o proporcione información sobre el contenido visual. Esta función ayuda con tareas como reconocer obras de arte u otros objetos en el entorno.

Creación de Ideas y Resumen

Debido a que la interacción es hablada, los usuarios pueden generar ideas rápidamente, esbozar proyectos o solicitar resúmenes de documentos largos mientras realizan otras tareas. La IA puede leer en voz alta la información condensada, convirtiendo el texto en un resumen de audio a demanda.

Impacto General

El Modo de Voz de ChatGPT extiende la utilidad del chatbot más allá del texto tecleado, ofreciendo una experiencia conversacional, sin manos y accesible que se adapta a varios escenarios diarios. Al combinar el procesamiento standard de voz a texto con la generación de audio multimodal avanzada, OpenAI proporciona opciones para usuarios gratuitos y pagos, mejorando la forma en que las personas interactúan con asistentes de IA.