Google Lança Veo 3.1, Modelo de IA que Melhora a Geração de Vídeo a Partir de Imagens

Google lançou o Veo 3.1, uma atualização de seu modelo de IA de geração de vídeo que melhora a aderência a prompts e adiciona a capacidade de converter imagens em vídeo enquanto gera áudio simultaneamente. O novo modelo está disponível via API Gemini e alimenta o editor de vídeo Flow, onde introduz recursos como "Frame to Video", que permite aos usuários carregar frames de início e fim e ter o sistema preencher o movimento.

Apresentando o Veo 3.1

Google anunciou uma nova versão de seu modelo de IA de geração de vídeo Veo, chamado Veo 3.1. A atualização se concentra em uma melhor "aderência a prompts", significando que o modelo segue as instruções textuais mais de perto do que as iterações anteriores. Além disso, o Veo 3.1 pode agora transformar imagens estáticas em sequências de vídeo em movimento enquanto gera áudio acompanhante, uma capacidade que não estava disponível no Veo 3.

Disponibilidade e Integração

O modelo atualizado está disponível hoje por meio da API Gemini da Google. Ele também alimenta o editor de vídeo Flow da empresa, onde traz novos controles criativos para os usuários. Um recurso destacado, chamado "Frame to Video", permite que os usuários carreguem um frame de início e um de fim, e o modelo preenche o movimento interveniente, produzindo um clipe sem interrupções. Esse recurso espelha uma oferta semelhante da Adobe Firefly, mas a implementação do Flow também inclui geração de áudio simultânea.

Fluxos de Trabalho Criativos Aprimorados

Com o Veo 3.1, o Flow pode não apenas gerar novo conteúdo de vídeo, mas também estender cliques existentes e inserir objetos em footages, tudo enquanto lida com áudio em tempo real. A Google posiciona essas capacidades como ferramentas destinadas a profissionais que trabalham com vídeo, e não como uma means de gerar trechos virais de mídia social.

Desempenho e Qualidade Visual

Vídeos de amostra compartilhados pela Google demonstram que o Veo 3.1 ainda produz uma qualidade visual "inquietante" que varia dependendo do prompt e do assunto. Embora a realismo ainda não atinja o nível do Sora 2 da OpenAI, as melhorias na fidelidade de prompt e a adição da conversão de imagem para vídeo representam um passo notável para a plataforma.

Direção Estratégica

Ao aprimorar a praticidade de suas ferramentas de vídeo de IA, a Google parece estar mirando criadores e empresas que precisam de geração de vídeo confiável e controlável. A integração com a API Gemini e o Flow sugere uma estratégia de ecossistema mais ampla, permitindo que desenvolvedores e editores incorporem as capacidades do Veo 3.1 diretamente em seus fluxos de trabalho.