OpenAI Puede Ser Obligada a Explicar la Eliminación de Conjuntos de Datos de Libros Piratas

Puntos clave
- OpenAI eliminó dos conjuntos de datos internos construidos desde el contenido de Library Genesis antes del lanzamiento de ChatGPT en 2022.
- Los autores alegan que los conjuntos de datos se utilizaron para entrenar a ChatGPT sin permiso, lo que provocó una demanda colectiva.
- OpenAI inicialmente citó el "no uso" como la razón para la eliminación, luego afirmó que la razón está protegida por el privilegio de abogado-cliente.
- La jueza del distrito de EE. UU. Ona Wang ordenó a OpenAI que divulgue las comunicaciones internas sobre la eliminación.
- El caso puede sentar un precedente para cómo las empresas de IA manejan las comunicaciones privilegiadas en litigios sobre derechos de autor.
OpenAI enfrenta presión para revelar por qué eliminó dos conjuntos de datos internos construidos desde una biblioteca sombra de libros piratas. El movimiento surge en medio de una demanda colectiva de autores que alegan que la empresa entrenó a ChatGPT con sus obras sin permiso.
Antecedentes
OpenAI creó dos conjuntos de datos internos, conocidos como "Libros 1" y "Libros 2," en 2021. Los conjuntos de datos se ensamblaron raspando la web abierta e incorporando material de Library Genesis, una bien conocida biblioteca sombra que hospeda libros piratas. OpenAI luego eliminó los conjuntos de datos antes del lanzamiento público de ChatGPT en 2022.
Desarrollos Legales
Los autores han presentado una demanda colectiva alegando que OpenAI utilizó ilegalmente sus obras con derechos de autor para entrenar a ChatGPT. Los demandantes buscan entender por qué OpenAI eliminó los conjuntos de datos, argumentando que la razón de la eliminación podría ser fundamental para su caso. OpenAI inicialmente afirmó que los conjuntos de datos se eliminaron porque ya no estaban en uso, pero posteriormente argumentó que cualquier razón para la eliminación, incluyendo el "no uso", está protegida por el privilegio de abogado-cliente.
La jueza del distrito de EE. UU. Ona Wang ordenó a OpenAI que entregue todas las comunicaciones con el consejero jurídico interno sobre la eliminación, así como cualquier referencia interna a Library Genesis que la empresa pueda haber redactado o retenido bajo la reclamación de privilegio. La jueza señaló que las declaraciones contradictorias de OpenAI —primero negando que el "no uso" fuera una razón para la eliminación y luego tratándolo como una razón privilegiada— generaron preocupaciones sobre la transparencia de la empresa.
Implicaciones
Si el tribunal requiere que OpenAI divulgue sus discusiones internas, los autores podrían obtener información sobre el proceso de toma de decisiones de la empresa y potencialmente fortalecer sus reclamos de que los datos de entrenamiento violaron la ley de derechos de autor. El resultado también puede sentar un precedente para cómo las empresas de tecnología manejan las comunicaciones privilegiadas cuando enfrentan litigios sobre el uso de datos.
El manejo de la situación por parte de OpenAI refleja una tensión más amplia entre el desarrollo rápido de la IA y el cumplimiento de los derechos de propiedad intelectual. El caso destaca los desafíos legales que surgen cuando los grandes modelos de lenguaje se entrenan en contenido público raspado que puede incluir material con derechos de autor.