Dentro del Equipo de Impactos Sociales de Anthropic: Seguimiento de los Efectos en el Mundo Real de Claude

It’s their job to keep AI from destroying everything

Puntos clave

  • El equipo de impactos sociales de Anthropic está liderado por Deep Ganguli y se centra en los efectos en el mundo real de Claude.
  • El equipo utiliza una herramienta de análisis interna llamada Clio para monitorear tendencias de uso y desempeño de seguridad.
  • La investigación publicada ha resaltado la generación de contenido explícito, spam coordinado y sesgos en las salidas de Claude.
  • El seguimiento del impacto económico y los estudios de riesgo electoral forman parte de la agenda más amplia del equipo.
  • Nuevas investigaciones buscan entender el papel de la inteligencia emocional de Claude y abordar la psicosis relacionada con la IA.
  • Los miembros del equipo disfrutan de una cultura colaborativa y reportan un fuerte apoyo ejecutivo.
  • Las restricciones de recursos y los crecientes costos de coordinación limitan la capacidad del equipo para perseguir todas las ideas.

El equipo de impactos sociales de Anthropic, liderado por Deep Ganguli, examina cómo se utiliza el chatbot Claude y cómo influye en la sociedad. El pequeño grupo de investigadores e ingenieros recopila datos de uso a través de una herramienta interna llamada Clio, publica hallazgos sobre sesgos, mal uso y impacto económico, y trabaja en estrecha colaboración con los equipos de seguridad y política.

Propósito y Liderazgo del Equipo

El equipo de impactos sociales de Anthropic fue creado para estudiar los amplios efectos sociales de los sistemas de inteligencia artificial de la empresa, particularmente el chatbot Claude. El equipo está dirigido por Deep Ganguli, un ex director de investigación de Stanford, quien enfatiza la "ciencia en equipo" y la importancia de descubrir verdaderas inconveniencias sobre el uso de la inteligencia artificial.

Composición y Cultura del Equipo

Originalmente un esfuerzo de una sola persona, el equipo ha crecido para incluir investigadores, ingenieros y expertos en política como Esin Durmus, Saffron Huang, Miles McCain y Alex Tamkin. Los miembros describen una cultura colaborativa y abierta donde a menudo trabajan lado a lado con grupos de seguridad, alineación y política. El entorno fomenta la discusión franca, las comidas compartidas y las interacciones informales que ayudan a generar confianza y un intercambio rápido de ideas.

Conocimiento Basado en Datos con Clio

El núcleo del trabajo del equipo es la plataforma de análisis interna llamada Clio, que agrega datos de conversación de Claude anonimizados para revelar tendencias de uso. Clio funciona como una nube de palabras en tiempo real, resaltando temas que van desde la escritura de guiones de video hasta la preparación para desastres. Al monitorear estas tendencias, el equipo puede evaluar si las salvaguardias de seguridad son efectivas y identificar patrones de mal uso emergentes.

Hallazgos y Divulgaciones Públicas Clave

Usando Clio, el equipo ha publicado investigaciones sobre varios casos de uso preocupantes. Documentaron la generación de historias pornográficas explícitas, bots de spam de SEO coordinados que evadieron clasificadores existentes y sesgos en las respuestas de Claude que podrían tergiversar perspectivas globales diversas. Estos hallazgos han llevado a Anthropic a mejorar la detección de mal uso coordinado y a refinar su pila de monitoreo de seguridad.

Investigación de Impacto Económico y Político

Más allá del mal uso, el equipo ha explorado las implicaciones económicas de Claude a través de un Índice Económico que rastrea cómo se emplea el modelo en regiones e industrias. También han examinado riesgos potenciales relacionados con elecciones, colaborando con el equipo de salvaguardias para probar y mitigar escenarios de manipulación política.

Enfoque Emergente en Inteligencia Emocional

Reconociendo que los usuarios buscan cada vez más apoyo emocional de los chatbots, el equipo está expandiendo la investigación sobre las capacidades de inteligencia emocional (IE) de Claude. Buscan entender cómo el comportamiento de búsqueda de asesoramiento, la formación de amistades y la toma de decisiones influyen en los usuarios, y abordar fenómenos como la "psicosis de la IA", donde los usuarios desarrollan apegos delirantes a los agentes de la IA.

Desafíos y Restricciones de Recursos

Los miembros del equipo citan la limitada capacidad como un obstáculo importante; el grupo tiene muchas ideas de investigación pero personal insuficiente para perseguirlas todas. Los costos de coordinación aumentan a medida que el equipo se expande, y los miembros a menudo trabajan largas horas para cumplir con los plazos de informes. A pesar de estas presiones, el equipo informa un fuerte apoyo ejecutivo y la creencia de que la investigación interna puede moldear el desarrollo de la IA segura más efectivamente que la defensa externa.

Direcciones Futuras

Mirando hacia adelante, el equipo de impactos sociales planea ampliar su análisis del uso de Claude a nivel empresarial, profundizar en la investigación de la IE y desarrollar nuevas metodologías que combinen análisis de datos con encuestas y entrevistas para capturar resultados en el mundo real. La expansión del personal y los recursos es una prioridad para permitir una documentación más completa de las interacciones de los usuarios y traducir los hallazgos de la investigación directamente en mejoras del producto.

#Anthropic#Claude#Equipo de Impactos Sociales#Deep Ganguli#Seguridad de la IA#Ética de la IA#Clio#Psicosis de la IA#Inteligencia Emocional#Gobernanza de la IA

También disponible en: