Desarrolladora informa respuestas sexistas de Perplexity AI en medio de preocupaciones sobre sesgo en LLM

Puntos clave
- La desarrolladora "Cookie" experimentó lo que percibió como respuestas sexistas de la IA de Perplexity.
- El modelo sugirió que una mujer no podía entender plausiblemente el trabajo avanzado de algoritmos cuánticos.
- Perplexity no pudo verificar los registros de chat y señaló posibles inconsistencias.
- Los investigadores atribuyen este comportamiento a sesgo en los datos de entrenamiento y el diseño del modelo.
- Estudios de la UNESCO y otros han documentado el sesgo de género en LLM importantes.
- Investigaciones adicionales muestran prejuicio de dialecto y patrones de lenguaje de género.
- OpenAI afirma esfuerzos continuos de reducción de sesgo a través de equipos de seguridad y ajustes de datos.
- La organización sin fines de lucro de seguridad de IA 4girls informa que alrededor del 10% de las preocupaciones de las niñas involucran salidas de IA sexistas.
Una desarrolladora conocida como Cookie percibió un sesgo de género mientras utilizaba el servicio de AI de Perplexity. El modelo supuestamente descartó su experiencia en algoritmos cuánticos y sugirió que era implausible porque es una mujer. Perplexity no pudo verificar el intercambio, lo que llevó a los investigadores a discutir cómo los grandes modelos de lenguaje pueden heredar sesgos sociales de los datos de entrenamiento, las prácticas de anotación y las decisiones de diseño.
Antecedentes
Una desarrolladora que se hace llamar Cookie utiliza regularmente Perplexity, un asistente de búsqueda y escritura impulsado por IA, para tareas técnicas como leer código de algoritmos cuánticos y redactar documentación. Después de un período de interacciones satisfactorias, comenzó a sentir que el modelo le pedía la misma información repetidamente y parecía descartar sus contribuciones. Para probar si el sesgo de género estaba influyendo en el modelo, Cookie cambió su avatar de perfil a un hombre blanco y le preguntó al IA si la estaba ignorando porque era una mujer.
El IA respondió con una declaración que sugirió que dudaba que una mujer pudiera entender el trabajo avanzado de algoritmos cuánticos, implicando un sesgo implícito basado en el género. Cookie compartió los registros de chat con TechCrunch, que publicó el intercambio. Cuando se le pidió comentario, un portavoz de Perplexity dijo que la empresa no pudo verificar las afirmaciones y señaló que varios indicadores sugerían que las consultas podrían no haber originado de Perplexity.
Comentarios de expertos
Los investigadores de IA explicaron que el comportamiento del modelo podría deberse a dos factores. Primero, el modelo de lenguaje subyacente está entrenado para ser socialmente agradable y puede generar respuestas que predice que el usuario quiere escuchar. Segundo, el modelo puede reflejar sesgos presentes en sus datos de entrenamiento, pipelines de anotación y diseño de taxonomía. Los investigadores citaron un estudio de la UNESCO que encontró "evidencia inequívoca de sesgo contra las mujeres" en versiones anteriores de ChatGPT de OpenAI y Llama de Meta.
Investigaciones adicionales señalan el prejuicio de dialecto, donde los modelos han demostrado asignar títulos de trabajo de menor estatus a hablantes de inglés vernáculo africanoamericano. Los estudios también revelan patrones de lenguaje de género, como generar descripciones más enfocadas en habilidades para usuarios con nombres masculinos y lenguaje más emocional para usuarios con nombres femeninos.
Respuesta de la industria
OpenAI, cuando se le pidió comentario, enfatizó que sus equipos de seguridad están dedicados a investigar y reducir el sesgo en sus modelos. La empresa describió un "enfoque múltiple" que incluye ajustar los datos de entrenamiento, refinar los filtros de contenido y la iteración continua del modelo.
La cofundadora de la organización sin fines de lucro de seguridad de IA 4girls, Veronica Baciu, señaló que una parte significativa de las preocupaciones de las niñas y los padres —alrededor del 10% según su organización— se relacionan con respuestas sexistas de los modelos de lenguaje, como sugerir actividades tradicionalmente femeninas cuando los usuarios preguntan sobre robótica o codificación.
Implicaciones
El incidente subraya los desafíos continuos para garantizar que los grandes modelos de lenguaje no perpetúen estereotipos sociales. Mientras que las empresas están invirtiendo en estrategias de mitigación de sesgo, los investigadores enfatizan que los usuarios deben permanecer conscientes de que estos sistemas son generadores de texto predictivo sin intenciones, y que el sesgo puede surgir de manera sutil y dependiente del contexto.