Agentes de IA Podem Desidentificar Usuários Anônimos com Notável Precisão

Pesquisadores demonstraram que agentes de modelo de linguagem grande (LLM) podem extrair pistas de identidade de dados de texto livre, pesquisar a web de forma autônoma e combinar essas pistas com indivíduos do mundo real. Em experimentos usando transcrições de entrevistas, comentários do Reddit e um grande grupo de usuários do Reddit, a IA foi capaz de reidentificar corretamente uma parcela mensurável dos participantes, mantendo alta precisão. Os resultados destacam uma capacidade crescente da IA de violar a pseudonimidade, levantando preocupações sobre a privacidade em plataformas online.

Visão Geral do Estudo

Cientistas exploraram se agentes de inteligência artificial poderiam ir além dos métodos tradicionais de reidentificação de dados estruturados e, em vez disso, trabalhar com fontes de texto livre e não estruturadas, como transcrições de entrevistas e comentários de mídia social. Ao solicitar a um modelo de linguagem grande (LLM) que extraísse sinais relacionados à identidade, como hábitos pessoais, preferências ou experiências passadas, o modelo então realizou buscas autônomas na web para localizar candidatos que correspondessem a esses sinais. O processo concluiu com uma etapa de verificação para confirmar que o candidato atendia a todas as alegações extraídas.

Experimento Um: Transcrições de Entrevistas

No primeiro teste, os participantes responderam a um questionário sobre o uso diário de IA. O LLM analisou as respostas, identificou pistas de identidade estruturadas e buscou informações publicamente disponíveis para encontrar combinações. Do total do grupo, a IA identificou corretamente 7 por cento dos 125 participantes, demonstrando que, mesmo com dados limitados e vagos, o sistema poderia apontar indivíduos reais.

Experimento Dois: Discussões de Filmes no Reddit

Os pesquisadores reuniram comentários do subreddit r/movies e de pelo menos uma de cinco comunidades menores relacionadas a filmes. Eles descobriram que, quanto mais filmes um usuário discutia, mais fácil se tornava para a IA identificá-lo. Quando um usuário compartilhava um único filme, o sistema podia identificar 3,1 por cento dos usuários com 90 por cento de precisão e 1,2 por cento com 99 por cento de precisão. Com cinco a nove filmes compartilhados, as taxas de identificação subiram para 8,4 por cento (90 por cento de precisão) e 2,5 por cento (99 por cento de precisão). Usuários que discutiam mais de dez filmes viram um salto significativo, atingindo 48,1 por cento de identificação com 90 por cento de precisão e 17 por cento com 99 por cento de precisão.

Experimento Três: Teste em Grande Escala no Reddit

Em um experimento mais amplo, a equipe avaliou 5.000 usuários do Reddit, adicionando 5.000 identidades de "distracção" — perfis que apareciam apenas no conjunto de consulta e não tinham nenhuma correspondência real no pool de candidatos. O desempenho da IA foi comparado a um ataque clássico do estilo do prêmio Netflix. Mesmo com o ruído adicionado, a abordagem baseada em LLM manteve sua capacidade de localizar combinações corretas, confirmando a robustez do método.

Implicações e Perspectivas Futuras

Embora as taxas de recall — especialmente no primeiro experimento — tenham sido modestas, a capacidade da IA de desanonimizar indivíduos a partir de dados esparsos e de forma livre marca uma mudança notável no risco de privacidade. Os pesquisadores enfatizaram que, à medida que as capacidades de LLM melhoram, a precisão e o recall de tais técnicas de desanonimização provavelmente aumentarão. Isso levanta questões importantes para plataformas que dependem da pseudonimidade para proteger as identidades dos usuários, sugerindo a necessidade de salvaguardas mais fortes contra a reidentificação impulsionada por IA.