Perplexity Lança Controle de Voz Sem Toque para Navegador Comet

Pontos principais
- A Perplexity atualizou o navegador Comet com controle de voz de sessão completa.
- A ativação no desktop usa Shift + Alt + V (Windows) ou Shift + Opção + V (Mac).
- Impulsionado pelo modelo gpt-realtime-1.5 da OpenAI para interação de baixa latência.
- O modo de voz melhora a estabilidade da chamada de ferramenta por mais de 25 por cento.
- Os usuários podem abrir sites, rolar, clicar em links e solicitar resumos falando.
- Abordagem de privacidade em primeiro lugar processa a voz localmente e evita o armazenamento de históricos de cliques na nuvem.
- Lançamento do iOS esperado alguns dias após o lançamento do desktop.
- Planos futuros incluem um assistente de aprendizado, gerenciador de senhas e sincronização entre dispositivos.
A Perplexity lançou um modo de voz aprimorado para seu navegador Comet, permitindo que os usuários de desktop naveguem na web inteiramente por voz. O recurso, impulsionado pelo modelo gpt-realtime-1.5 da OpenAI, permite que os usuários abram sites, rolem páginas e sigam links sem tocar no teclado ou mouse. Um atalho simples de teclado ativa o modo, e uma experiência semelhante está programada para o iOS mais tarde este mês. A Perplexity enfatiza a privacidade processando a voz localmente quando possível e evitando o armazenamento de históricos de cliques na nuvem. Atualizações futuras prometem um assistente de aprendizado, gerenciador de senhas e sincronização entre dispositivos.
Perplexity Expande Interação por Voz no Navegador Comet
A Perplexity anunciou uma atualização significativa para as capacidades de voz do seu navegador Comet, movendo a experiência além de uma ferramenta de consulta simples para uma navegação de sessão completa e sem toque. Os usuários de desktop podem ativar o novo modo imediatamente, enquanto os usuários do iOS receberão a funcionalidade alguns dias depois, de acordo com as listas de pré-venda.
O modo de voz aprimorado funciona com o modelo de tempo real mais recente da OpenAI, identificado como gpt-realtime-1.5. Este modelo é projetado para agentes de voz de baixa latência, fornecendo respostas mais rápidas e um ritmo mais natural que suporta sessões de escuta mais longas. O CEO da Perplexity, Aravind Srinivas, destacou o lançamento na plataforma social X, agradecendo à equipe multimodal da OpenAI por sua colaboração.
Ao contrário da maioria dos navegadores que tratam a voz como um "trabalho de festa" limitado a consultas de pesquisa, o Comet agora permite que os usuários controlem virtualmente todas as ações de navegação com comandos vocais. Os usuários podem abrir sites, rolar páginas, clicar em links e até solicitar resumos ou comparações de conteúdo - tudo sem um mouse ou teclado. Comandos de exemplo incluem "rolar para baixo", "abrir o terceiro link", "resumir esta página" e "comparar com a guia à esquerda". O atalho de ativação no Windows é Shift + Alt + V, e no macOS é Shift + Opção + V. Um atalho comparável será introduzido para o iPhone quando a versão do iOS for lançada.
A Perplexity relata que o novo modo de voz melhora a estabilidade da chamada de ferramenta por mais de 25 por cento, reduzindo disparos quando o navegador tenta executar instruções vocais. As vozes em si foram refinadas para uma articulação mais clara e um ritmo mais suave, melhorando a usabilidade para interações prolongadas.
A privacidade é um componente central do lançamento. O navegador processa os dados de voz localmente sempre que possível e não armazena históricos de cliques na nuvem por padrão, visando evitar a criação de perfis de rastreamento de anúncios. Essa postura difere do Comet de muitos concorrentes que dependem do processamento de servidor e da coleta extensiva de dados.
Olhando para o futuro, a Perplexity planeja enriquecer a experiência de voz com um assistente de aprendizado que se adapta às preferências individuais do usuário. O assistente pode ajudar com tarefas como compras, pedidos de comida ou encontrar voos com base no comportamento passado. Recursos adicionais em desenvolvimento incluem um gerenciador de senhas e sincronização entre dispositivos, embora os usuários do Android precisem esperar por essas capacidades.
O lançamento reflete uma mudança mais ampla na indústria em direção à computação ambiental, onde a interação é cada vez mais impulsionada por voz e consciente do contexto. Ao oferecer uma experiência de navegação robusta, focada na privacidade e sem toque, a Perplexity posiciona o Comet como uma ferramenta de vanguarda para usuários que preferem navegar na web por meio de conversas em vez de cliques.