Tencent Apresenta o Voyager: Um Modelo de IA de Alta Potência para Converter Vídeo em Mundos 3D

New AI model turns photos into explorable 3D worlds, with caveats

Pontos principais

  • O Voyager converte vídeo em mundos 3D exploráveis usando análise automática de movimento de câmera e profundidade.
  • O treinamento aproveitou mais de 100.000 cliques de vídeo de gravações reais e renderizações do Unreal Engine.
  • O requisito mínimo de hardware é de 60 GB de memória de GPU para saída de 540p; 80 GB é recomendado.
  • Configurações de multi-GPU (oito GPUs) executam cerca de 6,69 vezes mais rápido do que configurações de GPU única.
  • A licença bloqueia o uso na UE, Reino Unido e Coreia do Sul; uso comercial em grande escala precisa de licenciamento separado.
  • O benchmark WorldScore deu ao Voyager a pontuação geral mais alta de 77,62, com forte controle de objeto e consistência de estilo.
  • O Voyager fica atrás apenas no controle de câmera, com uma pontuação de 85,95 versus 92,98 da WonderWorld.
  • A carga computacional alta do modelo pode limitar a implantação em tempo real imediata.

A Tencent lançou o Voyager, um modelo de IA que converte imagens de vídeo em ambientes 3D navegáveis. Construído no ecossistema Hunyuan, o Voyager aprende o movimento da câmera e a profundidade a partir de mais de 100.000 cliques de vídeo sem marcação manual.

Visão Geral do Voyager

O novo modelo de IA da Tencent, o Voyager, estende a suite Hunyuan da empresa, que já inclui o Hunyuan3D-2 para geração de 3D a partir de texto e o HunyuanVideo para síntese de vídeo. O Voyager se concentra em converter cliques de vídeo existentes em mundos tridimensionais que podem ser explorados de forma interativa.

Métodologia de Treinamento

Pesquisadores construíram um software que analisa automaticamente imagens de vídeo para extrair movimentos de câmera e calcular a profundidade por frame. Essa abordagem removeu a necessidade de marcação manual laboriosa de milhares de horas de imagens. O sistema processou mais de 100.000 cliques de vídeo tirados de gravações do mundo real e renderizações geradas com o Unreal Engine.

Requisitos de Hardware

Executar o Voyager em uma resolução de 540p requer um mínimo de 60 GB de memória de GPU, enquanto a Tencent recomenda 80 GB para resultados ótimos. O modelo pode operar em configurações de GPU única ou multi-GPU; usar oito GPUs entrega velocidades de processamento aproximadamente 6,69 vezes mais rápidas do que uma configuração de GPU única.

Restrições de Licenciamento

A licença do modelo proíbe o uso na União Europeia, o Reino Unido e a Coreia do Sul. Além disso, qualquer implantação comercial que atenda a mais de 100 milhões de usuários ativos por mês deve obter um acordo de licenciamento separado da Tencent.

Desempenho em Benchmark

No benchmark WorldScore criado por pesquisadores da Universidade de Stanford, o Voyager alcançou a pontuação geral mais alta de 77,62, superando a WonderWorld com 72,69 e a CogVideoX-I2V com 62,15. O Voyager se destacou no controle de objeto (66,92), consistência de estilo (84,89) e qualidade subjetiva (71,09). Ele ficou em segundo lugar no controle de câmera com uma pontuação de 85,95, atrás da WonderWorld com 92,98.

Considerações de Implantação

Apesar dos fortes resultados de benchmark, as demandas computacionais do modelo apresentam desafios para a adoção generalizada. Desenvolvedores que buscam inferência mais rápida podem aproveitar a estrutura xDiT para processamento paralelo em múltiplas GPUs.

Perspectiva Futura

A capacidade do Voyager de gerar mundos 3D coerentes a partir de vídeo marca um passo em direção a experiências gerativas mais imersivas, embora aplicações interativas em tempo real possam ainda estar um pouco longe devido ao poder de hardware necessário.

#Tencent#Voyager#Hunyuan#IA#geração 3D#síntese de vídeo#requisitos de GPU#benchmark WorldScore#restrições de licenciamento#multimídia IA

Também disponível em:

Tencent Apresenta o Voyager: Um Modelo de IA de Alta Potência para Converter Vídeo em Mundos 3D | AI News