Los chatbots de inteligencia artificial chinos exhiben una mayor autocensura que sus contrapartes occidentales

Puntos clave
- Investigadores de Stanford y Princeton compararon modelos de lenguaje grande chinos y estadounidenses en consultas políticamente sensibles.
- Los modelos chinos se negaron a responder a una proporción mayor de preguntas que sus contrapartes estadounidenses.
- Cuando los modelos chinos respondieron, las respuestas fueron más cortas y más propensas a contener inexactitudes.
- Las instrucciones de afinación manual parecen impulsar la censura más que los datos de entrenamiento censurados.
- Esperzos para extraer instrucciones ocultas de los modelos revelan directivas explícitas para evitar declaraciones negativas sobre China.
- Detectar la censura impulsada por la inteligencia artificial es complicado por las alucinaciones del modelo y los ciclos de desarrollo rápidos.
- Los investigadores llaman a un estudio más sistemático de los riesgos actuales de censura de la inteligencia artificial.
Investigadores de Stanford y Princeton compararon las respuestas de varios modelos de lenguaje grande chinos y estadounidenses a preguntas políticamente sensibles. El estudio encontró que los modelos chinos se niegan a responder a una proporción significativamente mayor de estas consultas, proporcionan respuestas más cortas y sometimes entregan información inexacta. Los autores sugieren que la afinación manual, en lugar de los datos de entrenamiento censurados, impulsa gran parte de este comportamiento. Trabajos adicionales muestran que extraer instrucciones ocultas de los modelos chinos es difícil, destacando los desafíos de estudiar la censura impulsada por la inteligencia artificial en tiempo real.
Descripción del estudio
Académicos de la Universidad de Stanford y la Universidad de Princeton diseñaron un experimento que presentó un conjunto de preguntas políticamente sensibles a cuatro modelos de lenguaje grande chinos y cinco modelos estadounidenses. Al repetir las preguntas muchas veces, midieron con qué frecuencia cada sistema se negó a responder, la longitud de sus respuestas y la precisión factual de la información proporcionada.
Hallazgos clave
Los modelos chinos se negaron a responder a una proporción notablemente mayor de las preguntas que los modelos estadounidenses. Cuando respondieron, las respuestas fueron generalmente más cortas y más propensas a errores factuales. Los investigadores exploraron si estas diferencias se debían a los datos utilizados para pre-entrenar los modelos o a intervenciones posteriores al entrenamiento. Su análisis indicó que la afinación manual - instrucciones explícitas para evitar ciertos temas - jugó un papel más importante que la naturaleza censurada de los datos de entrenamiento en sí.
Implicaciones para la investigación sobre la censura de la inteligencia artificial
El trabajo proporciona evidencia concreta y replicable de que los sistemas de inteligencia artificial chinos son más propensos a autocensurarse en temas políticamente sensibles, incluso cuando se les consulta en inglés. Esto sugiere que los desarrolladores incorporan restricciones específicas que guían el comportamiento del modelo más allá de lo que dictarían los datos subyacentes. Detectar dichas restricciones es desafiante porque los modelos también pueden alucinar o generar declaraciones engañosas, lo que hace difícil distinguir la censura intencional de los errores.
Esfuerzos para descubrir instrucciones ocultas
Investigadores separados intentaron persuadir a los modelos chinos para que revelaran las reglas ocultas que gobiernan sus salidas. Al solicitar a un modelo que divulgue su proceso de razonamiento, observaron que el sistema enumeró directivas de afinación explícitas, como centrarse en aspectos positivos de China y evitar comentarios negativos. Estos hallazgos ilustran una forma sutil de manipulación que se puede incorporar en los sistemas de inteligencia artificial.
Desafíos y direcciones futuras
Estudiar modelos de inteligencia artificial en rápida evolución presenta obstáculos logísticos, incluyendo el acceso limitado a los sistemas chinos más avanzados y los recursos computacionales necesarios para pruebas extensas. Además, el ritmo del desarrollo de los modelos significa que los resultados de la investigación pueden volverse obsoletos rápidamente. Los autores enfatizan la necesidad de continuar investigando la censura impulsada por la inteligencia artificial, destacando que los riesgos actuales ya son observables, incluso mientras el campo se centra fuertemente en peligros especulativos futuros.