OpenAI Presenta Sora 2, un Modelo de Síntesis de Video con Audio Sincronizado y una Nueva Aplicación de Cameo para iOS

OpenAI anunció Sora 2, su segundo modelo de síntesis de video de segunda generación que puede generar videos con diálogo y efectos de sonido sincronizados, lo que marca el primer intento de la empresa en la generación de video con audio habilitado. El lanzamiento también introdujo una nueva aplicación social para iOS que permite a los usuarios insertarse en videos generados por IA a través de una función llamada "cameos". Sora 2 demuestra mejoras en la consistencia visual, la capacidad de seguir instrucciones complejas de multi-toma y movimientos físicos más realistas como rutinas de gimnasia y axels triples. OpenAI describe el lanzamiento como un "momento GPT-3.5 para video", posicionándolo como un gran paso hacia adelante desde el modelo Sora original.

OpenAI Anuncia Sora 2

OpenAI presentó Sora 2, un modelo de síntesis de video de segunda generación capaz de generar videos que incluyen diálogo y efectos de sonido sincronizados. Esto marca la primera vez que los modelos de video de OpenAI han incorporado audio realista, uniéndose a otros laboratorios de IA que han agregado recientemente capacidades de sonido.

Nueva Aplicación de Cameo para iOS

Junta con el modelo, OpenAI lanzó una nueva aplicación social para iOS que permite a los usuarios colocarse en videos generados por IA utilizando una función que la empresa llama "cameos". La aplicación permite a los usuarios crear videos personalizados donde aparecen junto a escenas creadas por IA.

Capacidades Demostradas

OpenAI mostró Sora 2 con un video de demostración que presenta una versión fotorealista de su CEO hablando en una voz ligeramente poco natural mientras está rodeado de fondos fantásticos como una carrera de patos competitiva y un jardín de hongos brillantes. El modelo puede producir "paisajes sonoros de fondo sofisticados, habla y efectos de sonido con un alto grado de realismo".

Mejoras Técnicas

En comparación con el modelo Sora original lanzado anteriormente, Sora 2 ofrece mejoras notables en la consistencia visual, un mejor manejo de instrucciones complejas de multi-toma y física más realista. El modelo puede simular movimientos físicos intrincados como rutinas de gimnasia olímpica y axels triples mientras mantiene un movimiento realista. OpenAI nota que los modelos de video anteriores eran "excesivamente optimistas" y sometimes producían resultados físicamente imposibles, como objetos que se teletransportan para cumplir con una solicitud. En Sora 2, un tiro de baloncesto fallido rebotará en el tablero, reflejando una física más precisa.

Contexto de la Industria

OpenAI enmarca el lanzamiento como un "momento GPT-3.5 para video", comparándolo con el avance que representó ChatGPT para la generación de texto. La adición de audio alinea OpenAI con los desarrollos recientes de otros laboratorios de IA que han introducido audio sincronizado en la generación de video.

Perspectiva Futura

El lanzamiento de Sora 2 y la aplicación de cameo señala la intención de OpenAI de expandir las posibilidades creativas de los medios generados por IA, ofreciendo a los usuarios una salida de video de mayor calidad y nuevas formas de personalizar el contenido.