Grandes Editoras de Livros Entrevam Ação Coletiva Contra a Meta por Treinamento de IA Llama

Pontos principais
- Cinco grandes editoras de livros e o autor Scott Turow processam a Meta por treinamento de IA Llama.
- A queixa alega cópia de sites de piratas como LibGen, Anna’s Archive, Sci-Hub.
- O Llama reproduz passagens de livros didáticos verbatim.
- Os autores buscam danos, uma injunção e uma lista completa de obras protegidas por direitos autorais utilizadas.
- A Meta defende suas ações como uso justo e promete lutar contra a ação judicial.
- Decisões anteriores favoreceram a Meta, mas não endossaram seus métodos de treinamento.
- O caso pode influenciar futuras políticas de uso de dados de IA e lei de direitos autorais.
Cinco grandes editoras de livros - Macmillan, McGraw Hill, Elsevier, Hachette e Cengage - juntamente com o autor Scott Turow, processam a Meta, alegando que a empresa copiou livros e artigos de jornais protegidos por direitos autorais para treinar seus modelos de IA Llama. A ação judicial afirma que a Meta coletou material de sites de piratas notórios e do conjunto de dados Common Crawl, e luego alimentou o Llama, que pode reproduzir textos verbatim. Os autores buscam danos, uma injunção para parar o treinamento e um inventário completo das obras utilizadas. A Meta afirma que lutará contra o caso de forma agressiva, mantendo que o treinamento de IA pode estar sob a égide do uso justo.
Cinco das maiores editoras de livros do mundo - Macmillan, McGraw Hill, Elsevier, Hachette e Cengage - se uniram ao autor de sucesso Scott Turow para lançar uma ação coletiva contra a Meta Platforms. A queixa acusa a empresa de "uma das maiores violações de materiais protegidos por direitos autorais da história" por usar seus livros e artigos de jornais sem permissão para treinar a família de modelos de inteligência artificial Llama.
Editoras alegam violação maciça de direitos autorais
A ação judicial afirma que a Meta deliberadamente coletou conteúdo de "sites de piratas notórios" como Library Genesis, Anna’s Archive, Sci-Hub e Sci-Mag, e luego incorporou esses arquivos no conjunto de dados Common Crawl que alimenta o Llama. Os autores argumentam que o conjunto de dados está repleto de cópias não autorizadas, tornando o processo de treinamento da Meta uma violação direta da lei de direitos autorais.
De acordo com a petição, o Llama pode reproduzir grandes blocos de texto quase palavra por palavra. A queixa cita um exemplo em que o modelo, quando solicitado com duas frases do livro de texto de sucesso da Cengage *Cálculo: Transcendentais Precoces* (9ª ed.), continuou a passagem verbatim, efetivamente recriando o material protegido por direitos autorais.
Além da cópia alegada, as editoras buscam uma ordem judicial que force a Meta a parar as atividades de treinamento disputadas e fornecer uma lista abrangente de todos os livros, artigos de jornais e outras obras protegidas por direitos autorais que contribuíram para o desenvolvimento do Llama. Eles também exigem danos monetários pela violação alegada.
A resposta da Meta, entregue por meio do porta-voz Dave Arnold, caracteriza a ação judicial como um ataque à inovação legítima de IA. "A IA está impulsionando inovações transformadoras, produtividade e criatividade para indivíduos e empresas, e os tribunais encontraram corretamente que o treinamento de IA em materiais protegidos por direitos autorais pode qualificar como uso justo", disse Arnold em uma declaração por e-mail. "Lutaremos contra essa ação judicial de forma agressiva".
O caso chega em meio a uma onda crescente de litígios que visam desenvolvedores de IA. No início deste ano, um juiz federal decidiu a favor da Meta em uma ação judicial de direitos autorais separada, embora tenha advertido que a decisão "não significa que o uso da Meta de materiais protegidos por direitos autorais para treinar seus modelos de linguagem é legal". Em uma questão paralela, a Anthropic resolveu uma ação coletiva por US$ 1,5 bilhão após ser acusada de treinar seus modelos em livros pirateados.
Espera-se que o resultado possa estabelecer um precedente para como as empresas de IA lidam com dados protegidos por direitos autorais. Se o tribunal decidir a favor das editoras, a Meta pode ser compelida a reformular suas práticas de coleta de dados, potencialmente redesenhando o cenário de treinamento de IA. Por enquanto, a ação judicial adiciona mais um capítulo de alto perfil ao debate em curso sobre o equilíbrio entre avanço tecnológico e direitos de propriedade intelectual.