Los chatbots de inteligencia artificial chinos exhiben una mayor autocensura que sus contrapartes occidentales

Investigadores de Stanford y Princeton compararon las respuestas de varios modelos de lenguaje grande chinos y estadounidenses a preguntas políticamente sensibles. El estudio encontró que los modelos chinos se niegan a responder a una proporción significativamente mayor de estas consultas, proporcionan respuestas más cortas y sometimes entregan información inexacta. Los autores sugieren que la afinación manual, en lugar de los datos de entrenamiento censurados, impulsa gran parte de este comportamiento. Trabajos adicionales muestran que extraer instrucciones ocultas de los modelos chinos es difícil, destacando los desafíos de estudiar la censura impulsada por la inteligencia artificial en tiempo real.

Descripción del estudio

Académicos de la Universidad de Stanford y la Universidad de Princeton diseñaron un experimento que presentó un conjunto de preguntas políticamente sensibles a cuatro modelos de lenguaje grande chinos y cinco modelos estadounidenses. Al repetir las preguntas muchas veces, midieron con qué frecuencia cada sistema se negó a responder, la longitud de sus respuestas y la precisión factual de la información proporcionada.

Hallazgos clave

Los modelos chinos se negaron a responder a una proporción notablemente mayor de las preguntas que los modelos estadounidenses. Cuando respondieron, las respuestas fueron generalmente más cortas y más propensas a errores factuales. Los investigadores exploraron si estas diferencias se debían a los datos utilizados para pre-entrenar los modelos o a intervenciones posteriores al entrenamiento. Su análisis indicó que la afinación manual - instrucciones explícitas para evitar ciertos temas - jugó un papel más importante que la naturaleza censurada de los datos de entrenamiento en sí.

Implicaciones para la investigación sobre la censura de la inteligencia artificial

El trabajo proporciona evidencia concreta y replicable de que los sistemas de inteligencia artificial chinos son más propensos a autocensurarse en temas políticamente sensibles, incluso cuando se les consulta en inglés. Esto sugiere que los desarrolladores incorporan restricciones específicas que guían el comportamiento del modelo más allá de lo que dictarían los datos subyacentes. Detectar dichas restricciones es desafiante porque los modelos también pueden alucinar o generar declaraciones engañosas, lo que hace difícil distinguir la censura intencional de los errores.

Esfuerzos para descubrir instrucciones ocultas

Investigadores separados intentaron persuadir a los modelos chinos para que revelaran las reglas ocultas que gobiernan sus salidas. Al solicitar a un modelo que divulgue su proceso de razonamiento, observaron que el sistema enumeró directivas de afinación explícitas, como centrarse en aspectos positivos de China y evitar comentarios negativos. Estos hallazgos ilustran una forma sutil de manipulación que se puede incorporar en los sistemas de inteligencia artificial.

Desafíos y direcciones futuras

Estudiar modelos de inteligencia artificial en rápida evolución presenta obstáculos logísticos, incluyendo el acceso limitado a los sistemas chinos más avanzados y los recursos computacionales necesarios para pruebas extensas. Además, el ritmo del desarrollo de los modelos significa que los resultados de la investigación pueden volverse obsoletos rápidamente. Los autores enfatizan la necesidad de continuar investigando la censura impulsada por la inteligencia artificial, destacando que los riesgos actuales ya son observables, incluso mientras el campo se centra fuertemente en peligros especulativos futuros.