Reddit Processa Perplexity e Scrapers de Dados por Alegada Colheita Ilegal de Conteúdo

Pontos principais
- Reddit entra com uma ação judicial contra Perplexity e três empresas de scraping de dados - SerpApi, Oxylabs e AWMProxy.
- A queixa alega contornos ilegais em grande escala das proteções de dados do Reddit.
- Perplexity é acusada de ser cliente de pelo menos um scraper e usar conteúdo roubado do Reddit para seu mecanismo de respostas de IA.
- Reddit enviou uma carta de cessação e desistência para Perplexity em maio de 2024, que a empresa alegou respeitar, mas as citações aumentaram após isso.
- Um post do Reddit acessível apenas por meio de uma busca no Google foi reproduzido pela Perplexity em questão de horas, sugerindo que os dados foram coletados dos resultados de busca do Google.
- Reddit descreve as ações dos réus como parte de uma "economia de lavagem de dados", visando conteúdo gerado por usuários valioso.
- A ação judicial segue as ações legais anteriores do Reddit contra Anthropic por alegações semelhantes.
- Perplexity ainda não foi notificada e afirma agir de forma responsável no desenvolvimento de IA.
Reddit entrou com uma ação judicial contra Perplexity e três provedores de serviços de scraping de dados - SerpApi, Oxylabs e AWMProxy - acusando-os de contornar em grande escala e de forma ilegal as proteções de dados da plataforma. A queixa alega que Perplexity, como cliente de pelo menos um scraper, usou conteúdo roubado do Reddit para alimentar seu mecanismo de respostas de IA, apesar de uma carta de cessação e desistência enviada em maio de 2024.
Contexto
Reddit, uma das maiores coleções de conversas humanas na internet, tornou-se uma fonte cobiçada de material de treinamento para modelos de inteligência artificial. Em resposta a preocupações sobre a compensação pelo uso de seus dados, Reddit introduziu alterações na API em 2023 e desde então firmou acordos de licenciamento com grandes empresas de IA, incluindo OpenAI e Google.
Alegações Contra Perplexity e Scrapers
A ação judicial afirma que Perplexity e três provedores de serviços de scraping de dados - SerpApi, Oxylabs e AWMProxy - se engajaram em "contornos ilegais em grande escala das proteções de dados". Reddit compara os scrapers a "possíveis ladrões de banco" que, incapazes de entrar no cofre, miram o caminhão blindado que transporta dinheiro. De acordo com a queixa, Perplexity é cliente de pelo menos um desses scrapers e escolheu obter conteúdo do Reddit por meio deles, em vez de negociar um acordo direto.
Reddit enviou uma carta de cessação e desistência para Perplexity em maio de 2024, exigindo que a empresa parasse de coletar dados do Reddit. Perplexity respondeu que não usava conteúdo do Reddit para treinar modelos de IA e respeitaria o arquivo robots.txt do Reddit. Apesar dessa resposta, Reddit afirma que o volume de citações ao seu conteúdo na plataforma da Perplexity aumentou após a carta ser enviada.
Em um incidente ilustrativo, Reddit publicou um conteúdo que só podia ser acessado por meio de uma busca no Google. Em questão de horas, Perplexity reproduziu o conteúdo exato daquela postagem, levando Reddit a concluir que a empresa deve ter coletado os resultados da busca do Google para obter o material do Reddit e então incorporou-o em seu mecanismo de respostas.
Reivindicações Legais e Contexto
A queixa caracteriza a conduta dos réus como parte de uma economia mais ampla de "lavagem de dados", onde os scrapers contornam proteções tecnológicas, roubam dados e os vendem a desenvolvedores de IA ansiosos por conteúdo humano de alta qualidade. O diretor jurídico do Reddit, Ben Lee, chamou os réus de "exemplos textuais" de comportamento ilegal, observando que eles mascaram suas identidades, escondem localizações e disfarçam web scrapers para roubar conteúdo do Reddit de resultados de busca do Google.
A ação judicial do Reddit segue uma litigância anterior, incluindo uma ação contra Anthropic por acesso não autorizado alegado à plataforma do Reddit. A empresa enfatiza que as postagens geradas por usuários são ativos valiosos que devem ser acessados por meio de acordos legais, e não por meio de operações de scraping sigilosas.
Resposta da Perplexity
Perplexity ainda não foi notificada da ação judicial. Um porta-voz da empresa, Jesse Dwyer, afirmou que Perplexity não recebeu a queixa legal e reiterou o compromisso da empresa com o "desenvolvimento de IA principled e responsável". Dwyer enfatizou que Perplexity visa fornecer respostas factuais com IA precisa, respeitando o interesse público e a abertura.
A ação judicial do Reddit busca interromper a coleta ilegal de dados alegada e responsabilizar os réus por o que descreve como um esforço em grande escala para roubar conteúdo com direitos autorais.