Tencent Presenta Voyager: Un Modelo de IA de Alta Potencia para Convertir Video en Mundos 3D

Puntos clave
- Voyager convierte video en mundos 3D explorables utilizando análisis automático de movimiento de cámara y profundidad.
- El entrenamiento aprovechó más de 100,000 clips de video de grabaciones reales y renders de Unreal Engine.
- El requisito de hardware mínimo es de 60 GB de memoria de GPU para salida de 540p; 80 GB es recomendado.
- Las configuraciones de múltiples GPU (ocho GPU) funcionan aproximadamente 6,69× más rápido que las configuraciones de una sola GPU.
- La licencia bloquea el uso en la UE, el Reino Unido y Corea del Sur; el uso comercial a gran escala necesita una licencia separada.
- La benchmark WorldScore otorgó a Voyager una puntuación general más alta de 77,62, con un fuerte control de objeto y consistencia de estilo.
- Voyager solo se queda atrás en control de cámara, con una puntuación de 85,95 versus 92,98 de WonderWorld.
- La alta carga computacional del modelo puede limitar el despliegue en tiempo real inmediato.
Tencent ha lanzado Voyager, un modelo de IA que convierte footage de video en entornos 3D navegables. Construido sobre el ecosistema Hunyuan, Voyager aprende el movimiento de la cámara y la profundidad de más de 100,000 clips de video sin etiquetado manual.
Visión General de Voyager
El nuevo modelo de IA de Tencent, Voyager, extiende la suite Hunyuan de la empresa, que ya incluye Hunyuan3D-2 para la generación de texto a 3D y HunyuanVideo para la síntesis de video. Voyager se centra en convertir clips de video existentes en mundos tridimensionales que se pueden explorar de manera interactiva.
Metodología de Entrenamiento
Los investigadores construyeron un software que analiza automáticamente el footage de video para extraer los movimientos de la cámara y calcular la profundidad por frame. Este enfoque eliminó la necesidad de etiquetado manual laborioso de miles de horas de footage. El sistema procesó más de 100,000 clips de video extraídos de grabaciones del mundo real y renders generados con el Unreal Engine.
Requisitos de Hardware
Ejecutar Voyager a una resolución de 540p requiere un mínimo de 60 GB de memoria de GPU, mientras que Tencent recomienda 80 GB para resultados óptimos. El modelo puede operar en configuraciones de una sola GPU o múltiples GPU; utilizar ocho GPU entrega velocidades de procesamiento aproximadamente 6,69 veces más rápidas que una configuración de una sola GPU.
Restricciones de Licencia
La licencia del modelo prohíbe su uso en la Unión Europea, el Reino Unido y Corea del Sur. Además, cualquier despliegue comercial que sirva a más de 100 millones de usuarios activos mensuales debe obtener un acuerdo de licencia separado de Tencent.
Rendimiento en la Benchmark
En la benchmark WorldScore creada por investigadores de la Universidad de Stanford, Voyager alcanzó la puntuación general más alta de 77,62, superando a WonderWorld con 72,69 y CogVideoX-I2V con 62,15. Voyager destacó en control de objeto (66,92), consistencia de estilo (84,89) y calidad subjetiva (71,09). Ocupó el segundo lugar en control de cámara con una puntuación de 85,95, detrás de WonderWorld con 92,98.
Consideraciones de Despliegue
A pesar de los sólidos resultados de la benchmark, las demandas computacionales del modelo presentan desafíos para una adopción generalizada. Los desarrolladores que buscan una inferencia más rápida pueden aprovechar el marco xDiT para el procesamiento paralelo en múltiples GPU.
Perspectiva Futura
La capacidad de Voyager para generar mundos 3D coherentes a partir de video marca un paso hacia experiencias generativas más inmersivas, aunque las aplicaciones interactivas en tiempo real pueden estar aún lejos debido a la potencia de hardware requerida.