Adobe Aumenta a Intensidade do Áudio com Inteligência Artificial com Novas Formas de Gerar Trilhas Sonoras e Áudio

Pontos principais
- A Adobe lança ferramentas de áudio com IA dentro do Firefly para gerar música, voz e efeitos sonoros.
- O gerador de voz oferece 50 vozes, 20 idiomas e controles de ajuste finos, como pausas e correções de pronúncia.
- A geração de trilha sonora analisa o conteúdo de vídeo e cria música royalty-free com uma licença universal.
- Parcerias com ElevenLabs e Topaz Labs expandem as opções de voz e diversidade de modelos.
- O novo modelo de licenciamento visa eliminar preocupações com direitos autorais para áudio gerado por IA.
A Adobe lançou uma série de ferramentas de áudio impulsionadas por inteligência artificial dentro de sua plataforma Firefly, permitindo que criadores gerem música de fundo, voz e efeitos sonoros diretamente de prompts de texto. As novas funcionalidades incluem um mecanismo de geração de voz com dezenas de vozes em vários idiomas, uma ferramenta de geração de trilha sonora que produz música royalty-free compatível com o conteúdo de vídeo e parcerias expandidas com ElevenLabs e Topaz Labs. A Adobe também introduziu licenças que permitem que os usuários usam a música criada por IA indefinidamente. As atualizações visam dar aos criadores mais controle e flexibilidade, simplificando o fluxo de trabalho para projetos ricos em áudio.
Inovações de Áudio com Inteligência Artificial no Firefly
A Adobe expandiu seu hub de inteligência artificial Firefly com uma série de capacidades de áudio projetadas para criadores que precisam de música, voz e efeitos sonoros sem sair da plataforma. Com base em ferramentas de áudio anteriores que se concentravam em efeitos sonoros, a nova série permite que os usuários gerem trilhas sonoras completas e voz sintética em forma beta. A funcionalidade de geração de trilha sonora analisa um vídeo carregado, sugere um prompt que descreve o clima, estilo e propósito e, em seguida, produz várias variações de música que correspondem ao comprimento do vídeo. A música gerada possui uma licença universal, permitindo uso comercial ilimitado.
Mecanismo de Geração de Voz
O gerador de voz oferece uma interface simples onde os usuários digitam ou colam um roteiro — até 7.500 caracteres, aproximadamente um vídeo de 15 a 20 minutos — e escolhem entre 50 vozes distintas. Cada voz é marcada com uma idade aproximada e gênero, incluindo opções não binárias, e suporta 20 idiomas. Os usuários podem ajustar a saída adicionando pausas, enfatizando seções ou corrigindo a pronúncia com uma ferramenta de quebra fonética. Esse nível de controle visa dar aos criadores narrações realistas e expressivas que se sentem naturais.
Licenciamento e Direitos de Uso
A Adobe enfatiza que qualquer música criada com a ferramenta de geração de trilha sonora vem com uma licença universal, significando que os criadores podem usar as faixas para qualquer propósito indefinidamente. A empresa treina seus modelos de IA em conteúdo que tem permissão para usar, reduzindo o risco de reivindicações de direitos autorais em plataformas como o YouTube. O sistema até rejeita prompts que referenciam artistas protegidos, garantindo conformidade com as diretrizes do usuário.
Parcerias e Opções de Modelo
Para ampliar seu ecossistema de áudio com IA, a Adobe adicionou parcerias com ElevenLabs e Topaz Labs, integrando o modelo multilíngue V2 da ElevenLabs como uma opção adicional de voz. Essas colaborações expandem a gama de vozes e capacidades disponíveis aos usuários. A Adobe também continua a lançar novas versões de seu modelo de imagem Firefly e introduz um editor de vídeo multitrack para ajudar a gerenciar clipes gerados por IA.
Impacto nos Criadores
De acordo com o chefe de áudio com IA da Adobe, as ferramentas são destinadas a uma ampla audiência — desde proprietários de pequenas empresas até educadores — que podem não ter os recursos para produzir áudio de nível profissional por conta própria. Ao simplificar a criação de música e narração, a Adobe espera reduzir a confusão em torno do licenciamento e tornar o áudio gerado por IA uma parte confiável do fluxo de trabalho criativo.