Por Dentro da Equipe de Impactos Sociais da Anthropic: Acompanhando os Efeitos Reais do Claude

A equipe de impactos sociais da Anthropic, liderada por Deep Ganguli, examina como o chatbot Claude é usado e como ele influencia a sociedade. O pequeno grupo de pesquisadores e engenheiros coleta dados de uso por meio de uma ferramenta interna chamada Clio, publica descobertas sobre viés, mau uso e impacto econômico, e trabalha em estreita colaboração com equipes de segurança e política.

Propósito e Liderança da Equipe

A equipe de impactos sociais da Anthropic foi criada para estudar os amplos efeitos sociais dos sistemas de IA da empresa, particularmente o chatbot Claude. A equipe é liderada por Deep Ganguli, um ex-diretor de pesquisa da Stanford, que enfatiza a "ciência em equipe" e a importância de descobrir verdades inconvenientes sobre o uso de IA.

Composição e Cultura da Equipe

Originalmente um esforço de uma pessoa, a equipe cresceu para incluir pesquisadores, engenheiros e especialistas em política, como Esin Durmus, Saffron Huang, Miles McCain e Alex Tamkin. Os membros descrevem uma cultura colaborativa e aberta, onde eles frequentemente trabalham lado a lado com grupos de segurança, alinhamento e política. O ambiente incentiva discussões francas, refeições compartilhadas e interações informais que ajudam a criar confiança e troca de ideias rápidas.

Conhecimento Baseado em Dados com Clio

O núcleo do trabalho da equipe é a plataforma de análise interna chamada Clio, que agrega dados de conversas anônimas do Claude para revelar tendências de uso. Clio funciona como uma palavra-chave em tempo real, destacando tópicos que variam desde a escrita de roteiros de vídeo até a preparação para desastres. Ao monitorar essas tendências, a equipe pode avaliar se as salvaguardas de segurança são eficazes e identificar padrões de mau uso emergentes.

Descobertas e Divulgações Públicas

Usando Clio, a equipe publicou pesquisas sobre vários casos de uso preocupantes. Eles documentaram a geração de histórias pornográficas explícitas, bots de spam de SEO coordenados que evitaram classificadores existentes e viés nas respostas do Claude que poderiam representar perspectivas globais diversificadas de forma errada. Essas descobertas levaram a Anthropic a melhorar a detecção de mau uso coordenado e a refinar sua pilha de monitoramento de segurança.

Pesquisa de Impacto Econômico e Político

Além do mau uso, a equipe explorou as implicações econômicas do Claude por meio de um Índice Econômico que acompanha como o modelo é empregado em regiões e indústrias. Eles também examinaram riscos potenciais relacionados a eleições, colaborando com a equipe de salvaguardas para testar e mitigar cenários de manipulação política.

Foco Emergente em Inteligência Emocional

Reconhecendo que os usuários cada vez mais buscam apoio emocional em chatbots, a equipe está expandindo a pesquisa sobre as capacidades de inteligência emocional (IE) do Claude. Eles visam entender como o comportamento de busca de conselhos, formação de amizades e tomada de decisões influencia os usuários e abordar fenômenos como a "psicose de IA", onde os usuários desenvolvem apegos delirantes a agentes de IA.

Desafios e Restrições de Recursos

Os membros da equipe citam a limitação de banda como um grande obstáculo; o grupo tem muitas ideias de pesquisa, mas pessoal insuficiente para perseguir todas elas. Os custos de coordenação aumentam à medida que a equipe se expande, e os membros frequentemente trabalham longas horas para atender aos prazos de relatórios. Apesar dessas pressões, a equipe relata forte apoio executivo e acredita que a pesquisa interna pode moldar o desenvolvimento de IA segura de forma mais eficaz do que a advocacia externa.

Direções Futuras

Olhando para o futuro, a equipe de impactos sociais planeja ampliar sua análise do uso do Claude em nível empresarial, aprofundar a pesquisa de IE e desenvolver novas metodologias que combinem análise de dados com pesquisas e entrevistas para capturar resultados do mundo real. A expansão do pessoal e dos recursos é uma prioridade para permitir uma documentação mais abrangente das interações do usuário e traduzir descobertas de pesquisa diretamente em melhorias de produtos.