ChatGPT Expande Interação sem Mãos com Modo de Voz

Pontos principais
- O ChatGPT agora suporta consultas faladas e respostas de áudio em todas as plataformas.
- Duas camadas de voz são oferecidas: uma opção padrão gratuita e uma opção avançada paga com interação multimodal em tempo real.
- A interface de voz permite conversas naturais e de ida e volta sem digitação.
- Os usuários podem multitask, criar ideias e recuperar informações sem mãos em atividades diárias.
- Aprendizes de idiomas podem praticar a fala e receber traduções faladas.
- O recurso melhora a acessibilidade para pessoas com desafios de visão, leitura ou habilidades motoras.
- O modo de voz avançado pode analisar a entrada visual da câmera e fornecer respostas faladas.
A OpenAI ampliou as capacidades de seu assistente ChatGPT adicionando um Modo de Voz que permite aos usuários fazer perguntas faladas e ouvir respostas faladas. O recurso funciona em plataformas móveis, de desktop e web, permitindo uma conversa natural e de ida e volta sem digitação. Duas versões são oferecidas: uma opção de voz padrão e gratuita e uma opção avançada paga que fornece interação multimodal em tempo real. Os usuários relatam que a experiência sem mãos melhora a velocidade, a acessibilidade, a prática de idiomas e a criação de ideias em movimento, enquanto ainda depende do mesmo modelo de linguagem subjacente.
Visão Geral do Modo de Voz
A OpenAI\'s ChatGPT agora inclui um Modo de Voz que permite aos usuários conversar com a IA usando entrada falada e saída de áudio. O botão de voz aparece no canto inferior direito de qualquer conversa no aplicativo, permitindo que os usuários alternem entre digitação e fala. Duas camadas estão disponíveis: uma opção de voz padrão que transcreve a fala antes de processá-la com o modelo GPT-4, e uma opção de voz avançada que aproveita modelos multimodais para ouvir e falar em tempo real. A versão avançada faz parte da assinatura paga, enquanto a versão padrão é gratuita para todos os usuários.
Benefícios e Casos de Uso
A experiência sem mãos é descrita como mais natural e conversacional, permitindo que os usuários falem naturalmente com pausas e palavras de preenchimento. É particularmente útil em situações de multitarefa, como criar ideias enquanto se desloca ou cozinha. O recurso também ajuda os aprendizes de idiomas, que podem praticar a fala e receber traduções faladas. A acessibilidade é uma grande vantagem, oferecendo uma alternativa para indivíduos com baixa visão, dislexia ou desafios de habilidades motoras. Além disso, as capacidades multimodais do modo avançado permitem que os usuários apontem a câmera para objetos do mundo real e recebam informações faladas sobre eles. Em geral, a adição do Modo de Voz expande como os usuários podem interagir com o ChatGPT, tornando a ferramenta mais rápida, mais inclusiva e adaptável a cenários do dia a dia.