Reddit Processa Perplexity e Scrapers de Dados por Alegada Colheita Ilegal de Conteúdo

Reddit entrou com uma ação judicial contra Perplexity e três provedores de serviços de scraping de dados - SerpApi, Oxylabs e AWMProxy - acusando-os de contornar em grande escala e de forma ilegal as proteções de dados da plataforma. A queixa alega que Perplexity, como cliente de pelo menos um scraper, usou conteúdo roubado do Reddit para alimentar seu mecanismo de respostas de IA, apesar de uma carta de cessação e desistência enviada em maio de 2024.

Contexto

Reddit, uma das maiores coleções de conversas humanas na internet, tornou-se uma fonte cobiçada de material de treinamento para modelos de inteligência artificial. Em resposta a preocupações sobre a compensação pelo uso de seus dados, Reddit introduziu alterações na API em 2023 e desde então firmou acordos de licenciamento com grandes empresas de IA, incluindo OpenAI e Google.

Alegações Contra Perplexity e Scrapers

A ação judicial afirma que Perplexity e três provedores de serviços de scraping de dados - SerpApi, Oxylabs e AWMProxy - se engajaram em "contornos ilegais em grande escala das proteções de dados". Reddit compara os scrapers a "possíveis ladrões de banco" que, incapazes de entrar no cofre, miram o caminhão blindado que transporta dinheiro. De acordo com a queixa, Perplexity é cliente de pelo menos um desses scrapers e escolheu obter conteúdo do Reddit por meio deles, em vez de negociar um acordo direto.

Reddit enviou uma carta de cessação e desistência para Perplexity em maio de 2024, exigindo que a empresa parasse de coletar dados do Reddit. Perplexity respondeu que não usava conteúdo do Reddit para treinar modelos de IA e respeitaria o arquivo robots.txt do Reddit. Apesar dessa resposta, Reddit afirma que o volume de citações ao seu conteúdo na plataforma da Perplexity aumentou após a carta ser enviada.

Em um incidente ilustrativo, Reddit publicou um conteúdo que só podia ser acessado por meio de uma busca no Google. Em questão de horas, Perplexity reproduziu o conteúdo exato daquela postagem, levando Reddit a concluir que a empresa deve ter coletado os resultados da busca do Google para obter o material do Reddit e então incorporou-o em seu mecanismo de respostas.

Reivindicações Legais e Contexto

A queixa caracteriza a conduta dos réus como parte de uma economia mais ampla de "lavagem de dados", onde os scrapers contornam proteções tecnológicas, roubam dados e os vendem a desenvolvedores de IA ansiosos por conteúdo humano de alta qualidade. O diretor jurídico do Reddit, Ben Lee, chamou os réus de "exemplos textuais" de comportamento ilegal, observando que eles mascaram suas identidades, escondem localizações e disfarçam web scrapers para roubar conteúdo do Reddit de resultados de busca do Google.

A ação judicial do Reddit segue uma litigância anterior, incluindo uma ação contra Anthropic por acesso não autorizado alegado à plataforma do Reddit. A empresa enfatiza que as postagens geradas por usuários são ativos valiosos que devem ser acessados por meio de acordos legais, e não por meio de operações de scraping sigilosas.

Resposta da Perplexity

Perplexity ainda não foi notificada da ação judicial. Um porta-voz da empresa, Jesse Dwyer, afirmou que Perplexity não recebeu a queixa legal e reiterou o compromisso da empresa com o "desenvolvimento de IA principled e responsável". Dwyer enfatizou que Perplexity visa fornecer respostas factuais com IA precisa, respeitando o interesse público e a abertura.

A ação judicial do Reddit busca interromper a coleta ilegal de dados alegada e responsabilizar os réus por o que descreve como um esforço em grande escala para roubar conteúdo com direitos autorais.

Reddit Processa Perplexity e Scrapers de Dados por Alegada Colheita Ilegal de Conteúdo

Pontos principais

Contexto

Alegações Contra Perplexity e Scrapers

Reivindicações Legais e Contexto

Resposta da Perplexity

Também disponível em: