OpenAI Apresenta Sora 2, um Modelo de Síntese de Vídeo com Áudio Sincronizado e Novo Aplicativo Cameo para iOS

OpenAI anunciou Sora 2, seu modelo de segunda geração de síntese de vídeo que pode gerar vídeos com diálogo e efeitos sonoros sincronizados, marcando a primeira incursão da empresa na geração de vídeo com áudio habilitado. O lançamento também introduziu um novo aplicativo social para iOS que permite aos usuários inserir a si mesmos em vídeos gerados por IA por meio de uma função chamada "cameos". Sora 2 demonstra melhorias na consistência visual, capacidade de seguir instruções complexas de multi-tiros e movimentos físicos mais realistas, como rotinas de ginástica e axels triplos. OpenAI descreve o lançamento como um "momento GPT-3.5 para vídeo", posicionando-o como um grande passo adiante em relação ao modelo Sora original.

OpenAI Anuncia Sora 2

OpenAI apresentou Sora 2, um modelo de segunda geração de síntese de vídeo capaz de gerar vídeos que incluem diálogo e efeitos sonoros sincronizados. Isso marca a primeira vez que os modelos de vídeo da OpenAI incorporaram áudio realista, juntando-se a outros laboratórios de IA que recentemente adicionaram capacidades de som.

Novo Aplicativo Cameo para iOS

Além do modelo, OpenAI lançou um novo aplicativo social para iOS que permite aos usuários colocar a si mesmos em vídeos gerados por IA usando uma função que a empresa chama de "cameos". O aplicativo permite que os usuários criem vídeos personalizados onde aparecem ao lado de cenas criadas por IA.

Capacidades Demonstradas

OpenAI demonstrou Sora 2 com um vídeo de demonstração apresentando uma versão fotorealista de seu CEO falando em uma voz ligeiramente não natural enquanto está cercado por cenários fantásticos, como uma corrida de patos competitiva e um jardim de cogumelos brilhantes. O modelo pode produzir "paisagens sonoras de fundo sofisticadas, discurso e efeitos sonoros com um alto grau de realismo".

Melhorias Técnicas

Em comparação com o modelo Sora original lançado anteriormente, Sora 2 oferece melhorias notáveis na consistência visual, melhor manipulação de instruções complexas de multi-tiros e física mais realista. O modelo pode simular movimentos físicos intricados, como rotinas de ginástica olímpica e axels triplos, mantendo a motion realista. OpenAI observa que os modelos de vídeo anteriores eram "otimistas demais" e às vezes produziam resultados fisicamente impossíveis, como objetos teleportando para atender a um prompt. Em Sora 2, um arremesso de basquete perdido irá quicar na tabela, refletindo física mais precisa.

Contexto da Indústria

OpenAI enquadrar o lançamento como um "momento GPT-3.5 para vídeo", comparando-o com o avanço que ChatGPT representou para a geração de texto. A adição de áudio alinha OpenAI com os desenvolvimentos recentes de outros laboratórios de IA que introduziram áudio sincronizado na geração de vídeo.

Perspectiva Futura

O lançamento de Sora 2 e do aplicativo cameo sinaliza a intenção da OpenAI de expandir as possibilidades criativas da mídia gerada por IA, oferecendo aos usuários tanto saída de vídeo de alta qualidade quanto novas maneiras de personalizar o conteúdo.