Mira Murati's Thinking Machines Apresenta Modelos de Interação em Tempo Real para Colaboração de IA

Pontos principais
- Thinking Machines anuncia desenvolvimento de 'modelos de interação' que processam áudio, vídeo e texto em tempo real.
- Os modelos de IA atuais operam em modo single-threaded, pausando até que os usuários terminem a entrada.
- Os novos modelos visam eliminar a pausa de percepção, permitindo colaboração contínua e multimodal.
- Vídeos de demo mostram detecção de menções a animais em tempo real, tradução de linguagem falada em tempo real e alertas de postura.
- Uma visualização de pesquisa limitada está programada para os próximos meses; uma liberação mais ampla está programada para mais tarde este ano.
- A fundadora Mira Murati deixou a OpenAI em fevereiro de 2025; a startup enfrentou uma rotatividade significativa de funcionários.
- As aplicações potenciais abrangem educação, trabalho remoto, acessibilidade e muito mais.
Thinking Machines, a startup de inteligência artificial fundada pela ex-diretora de tecnologia da OpenAI Mira Murati, anunciou na segunda-feira que está desenvolvendo 'modelos de interação' - sistemas que processam áudio, vídeo e texto simultaneamente e respondem em tempo real.
Thinking Machines, a venture de IA lançada pela ex-diretora de tecnologia da OpenAI Mira Murati, revelou na segunda-feira que está construindo o que chama de 'modelos de interação'. A empresa descreve esses modelos como capazes de ingerir fluxos de áudio, vídeo e texto ao mesmo tempo, e então pensar, responder e agir sem as pausas que caracterizam os sistemas gerativos atuais.
Os modelos atuais, de acordo com a empresa, esperam que o usuário termine de falar ou digitar antes de gerar uma resposta. Durante essa pausa, a percepção do modelo congela, perdendo qualquer novo sinal. 'Isso cria um canal estreito para a colaboração humano-IA', escreveu a empresa, comparando-a a tentar resolver um debate acalorado por e-mail em vez de face a face.
Os modelos de interação visam eliminar esse gargalo. Ao permanecer ciente de uma conversa em tempo real, eles podem se adaptar a mudanças de tom, gesto ou contexto à medida que ocorrem. A abordagem, disse Murati, permite que a IA encontre as pessoas onde elas estão, em vez de forçar os usuários a se contorcer para se adaptar à interface limitada da IA.
Demos ao vivo ilustram a promessa
Thinking Machines compartilhou vários vídeos de prova de conceito. Em um, o modelo ouve um contador de histórias e destaca cada menção a um animal, demonstrando processamento auditivo contínuo. Outro clipe mostra o sistema traduzindo linguagem falada em tempo real, enquanto um terceiro alerta um participante quando ele começa a se curvar, usando sinais visuais para fornecer feedback instantâneo. Os demos destacam a afirmação da empresa de que a interação multimodal em tempo real pode tornar a IA mais parecida com um parceiro de colaboração.
Murati, que fundou Thinking Machines em fevereiro de 2025 após deixar a OpenAI, reconheceu que a startup já enfrentou uma rotatividade significativa de funcionários, com alguns engenheiros-chave migrando para a Meta e até retornando à OpenAI. 'Aprendemos muito sobre construir equipes resilientes enquanto impulsionamos a fronteira da IA', disse ela.
A empresa não está oferecendo a tecnologia ao público ainda. Ela planeja uma 'visualização de pesquisa limitada' nos próximos meses, visando parceiros selecionados que possam ajudar a refinar os modelos. Uma liberação mais ampla está programada para mais tarde este ano, embora nenhum cronograma específico tenha sido fornecido.
Observadores da indústria notam que a IA em tempo real e multimodal pode abrir novas aplicações em educação, trabalho remoto e acessibilidade. Se bem-sucedida, os modelos de interação podem pressionar os principais players a acelerar capacidades semelhantes, potencialmente redesenhando como os desenvolvedores integram a IA em ferramentas cotidianas.
Por enquanto, Thinking Machines convida pesquisadores interessados a se inscreverem para atualizações em seu site. A empresa promete documentação técnica mais detalhada nas próximas semanas, oferecendo um vislumbre de um futuro em que a IA responde com a mesma fluidez que um colaborador humano.