OpenAI Pode Ser Obligada a Explicar a Exclusão de Conjuntos de Dados de Livros Piratas

Pontos principais
- OpenAI excluiu dois conjuntos de dados internos construídos a partir do conteúdo da Library Genesis antes do lançamento do ChatGPT em 2022.
- Autores alegam que os conjuntos de dados foram usados para treinar o ChatGPT sem permissão, o que motivou uma ação coletiva.
- OpenAI inicialmente citou "não uso" como a razão para a exclusão, mas luego alegou que a razão é protegida por privilégio de advogado-cliente.
- A juíza do Tribunal Distrital dos EUA, Ona Wang, ordenou que OpenAI divulgasse comunicações internas sobre a exclusão.
- O caso pode estabelecer um precedente para como as empresas de IA lidam com comunicações privilegiadas em litígios sobre direitos autorais.
OpenAI enfrenta pressão para revelar por que removeu dois conjuntos de dados internos construídos a partir de uma biblioteca sombra de livros piratas. A medida vem em meio a uma ação coletiva de autores que alegam que a empresa treinou o ChatGPT com suas obras sem permissão.
Contexto
OpenAI criou dois conjuntos de dados internos, conhecidos como "Livros 1" e "Livros 2", em 2021. Os conjuntos de dados foram montados raspando a web aberta e incorporando material da Library Genesis, uma biblioteca sombra bem conhecida que hospeda livros piratas. OpenAI posteriormente excluiu os conjuntos de dados antes do lançamento público do ChatGPT em 2022.
Desenvolvimentos Legais
Autores entraram com uma ação coletiva alegando que OpenAI usou ilegalmente suas obras com direitos autorais para treinar o ChatGPT. Os autores buscam entender por que OpenAI removeu os conjuntos de dados, argumentando que a razão para a exclusão pode ser fundamental para seu caso. OpenAI inicialmente afirmou que os conjuntos de dados foram removidos porque não estavam mais em uso, mas subsequentemente argumentou que qualquer razão para a exclusão, incluindo "não uso", é protegida por privilégio de advogado-cliente.
A juíza do Tribunal Distrital dos EUA, Ona Wang, ordenou que OpenAI entregasse todas as comunicações com o advogado interno sobre a exclusão, bem como quaisquer referências internas à Library Genesis que a empresa pode ter redigido ou retido sob a alegação de privilégio. A juíza observou que as declarações contraditórias da OpenAI — primeiro negando que "não uso" fosse uma razão para a exclusão e posteriormente tratando-a como uma razão privilegiada — levantaram preocupações sobre a transparência da empresa.
Implicações
Se o tribunal exigir que OpenAI divulgue suas discussões internas, os autores podem obter insights sobre o processo de tomada de decisões da empresa e potencialmente fortalecer suas alegações de que os dados de treinamento violaram a lei de direitos autorais. O resultado também pode estabelecer um precedente para como as empresas de tecnologia lidam com comunicações privilegiadas quando enfrentam litígios sobre uso de dados.
O manejo da situação pela OpenAI reflete uma tensão mais ampla entre o desenvolvimento rápido de IA e a adesão aos direitos de propriedade intelectual. O caso destaca os desafios legais que surgem quando grandes modelos de linguagem são treinados em conteúdo raspado publicamente que pode incluir material com direitos autorais.