Reddit demanda a Perplexity y tres otras empresas por extracción no autorizada de datos

Reddit ha presentado una demanda contra la startup de inteligencia artificial Perplexity y tres empresas de extracción de datos - SerApi, OxyLabs y AWMProxy - acusándolas de extraer contenido de Reddit de los resultados de búsqueda sin licencia. La queja alega que los demandados utilizaron el material extraído para alimentar motores de respuestas de inteligencia artificial, violando los términos de licencia de Reddit. Reddit, que ha comenzado a licenciar sus datos a importantes empresas de tecnología, busca daños y una injunción para detener el uso no autorizado adicional. El caso subraya la creciente tensión entre las plataformas en línea y los desarrolladores de inteligencia artificial sobre el uso de contenido público para entrenar modelos.

Antecedentes

Reddit, una importante plataforma de comunidad en línea, ha buscado cada vez más monetizar su vasto repositorio de publicaciones generadas por usuarios licenciando los datos a empresas de tecnología. La plataforma ha entrado en acuerdos con prominentes desarrolladores de inteligencia artificial y también ha experimentado con su propia herramienta de respuestas de inteligencia artificial que se basa en el contenido de Reddit. Para proteger su propiedad intelectual, Reddit ha tomado medidas para limitar la extracción no autorizada de su sitio.

La demanda

En una nueva acción legal, Reddit alega que cuatro empresas - Perplexity, SerApi, OxyLabs y AWMProxy - extrajeron publicaciones de Reddit de los resultados de los motores de búsqueda e incorporaron ese material en servicios de inteligencia artificial sin obtener una licencia. La queja afirma que los demandados sortearon el sistema de licencia de Reddit, privando así a la plataforma de ingresos y violando sus términos de uso. Reddit busca daños financieros y una injunción permanente para evitar que los demandados vendan o utilicen el contenido extraído en el futuro.

Empresas involucradas

Perplexity, una startup de motor de respuestas de inteligencia artificial, depende de grandes conjuntos de datos para entrenar sus modelos. La demanda afirma que Perplexity reprodujo rápidamente una publicación de prueba de Reddit que se colocó deliberadamente en la web para ser indexada solo por los motores de búsqueda, demostrando que el contenido se obtuvo a través de la extracción. Las otras tres demandadas - SerApi, OxyLabs y AWMProxy - se describen como empresas cuyos modelos de negocio se centran en la recopilación de datos de los resultados de búsqueda y su reventa a clientes, incluidos desarrolladores de inteligencia artificial.

Respuesta de Reddit

Reddit dice que proporcionó un aviso de cesar y desistir a Perplexity, que afirmó que no utilizó datos de Reddit pero continuó citando la plataforma en sus respuestas. El equipo legal de Reddit presentó evidencia de que la publicación de prueba fue reproducida por los sistemas de los demandados poco después de que fue indexada, lo que respalda la afirmación de extracción no autorizada. La empresa también ha tomado medidas técnicas como la limitación de velocidad de bots desconocidos y la restricción del acceso a ciertos archivos web.

Implicaciones para la industria de la inteligencia artificial

La demanda destaca un conflicto más amplio entre las plataformas en línea que generan grandes volúmenes de contenido de usuario y las empresas de inteligencia artificial que necesitan ese contenido para entrenar modelos. A medida que las plataformas como Reddit se mueven hacia acuerdos de licencia, están asumiendo un mayor control sobre cómo se utiliza su datos. El resultado de este caso podría sentar precedentes para cómo los desarrolladores de inteligencia artificial deben obtener y pagar por los datos, y puede fomentar un cumplimiento más estricto con robots.txt y otros estándares de crawling web.