Reddit Processa Perplexity e Três Outras Empresas por Extração de Dados Não Autorizada

Reddit entrou com uma ação judicial contra a startup de IA Perplexity e três empresas de extração de dados - SerApi, OxyLabs e AWMProxy - acusando-as de extrair conteúdo do Reddit de resultados de busca sem licença.

Contexto

Reddit, uma grande plataforma de comunidade online, tem buscado monetizar seu vasto repositório de posts gerados por usuários licenciando os dados para empresas de tecnologia. A plataforma firmou acordos com desenvolvedores de IA proeminentes e também experimentou com sua própria ferramenta de resposta de IA que se baseia em conteúdo do Reddit. Para proteger sua propriedade intelectual, Reddit tem tomado medidas para limitar a extração e raspagem não autorizadas de seu site.

A Ação Judicial

Em uma nova ação legal, Reddit alega que quatro empresas - Perplexity, SerApi, OxyLabs e AWMProxy - rasparam posts do Reddit de resultados de motores de busca e incorporaram esse material em serviços de IA sem obter licença. A queixa afirma que os réus contornaram o sistema de licenciamento do Reddit, privando assim a plataforma de receita e violando seus termos de uso. Reddit busca danos financeiros e uma injunção permanente para impedir que os réus vendam ou usem o conteúdo raspado no futuro.

Empresas Envolvidas

Perplexity, uma startup de motor de resposta de IA, depende de grandes conjuntos de dados para treinar seus modelos. A ação judicial afirma que Perplexity rapidamente reproduziu um post de teste do Reddit que foi deliberadamente colocado na web para ser indexado apenas por motores de busca, demonstrando que o conteúdo foi obtido por meio de raspagem. As outras três rés - SerApi, OxyLabs e AWMProxy - são descritas como empresas cujos modelos de negócios centram-se na coleta de dados de resultados de busca e revenda para clientes, incluindo desenvolvedores de IA.

Resposta do Reddit

Reddit afirma que forneceu um aviso de cessar e desistir para Perplexity, que alegou não usar dados do Reddit, mas continuou a citar a plataforma em suas respostas. A equipe jurídica do Reddit apresentou evidências de que o post de teste foi reproduzido pelos sistemas dos réus logo após ser indexado, apoiando a alegação de raspagem não autorizada. A empresa também tomou medidas técnicas, como limitar a taxa de bots desconhecidos e restringir o acesso a certos arquivos da web.

Implicações para a Indústria de IA

A ação judicial destaca um conflito mais amplo entre plataformas online que geram grandes volumes de conteúdo de usuário e empresas de IA que precisam desse conteúdo para treinar modelos. À medida que plataformas como Reddit movem-se em direção a acordos de licenciamento, elas estão afirmando um maior controle sobre como seus dados são usados. O resultado desse caso pode estabelecer precedentes para como os desenvolvedores de IA devem obter e pagar por dados e pode incentivar uma conformidade mais rigorosa com robots.txt e outros padrões de raspagem da web.