Estudio de Anthropic muestra que una pequeña cantidad de datos envenenados puede crear una puerta trasera en grandes modelos de lenguaje

Researchers find just 250 malicious documents can leave LLMs vulnerable to backdoors

Puntos clave

  • Anthropic publicó un informe sobre ataques de envenenamiento de datos contra LLM.
  • Solo se necesitaron 250 documentos maliciosos para incorporar una puerta trasera.
  • El ataque funcionó en modelos que van desde 600 millones hasta 13 mil millones de parámetros.
  • Los hallazgos indican que los ataques de envenenamiento pueden ser más fáciles de ejecutar de lo que se pensaba anteriormente.
  • El estudio se llevó a cabo con el Instituto de Seguridad de la Inteligencia Artificial del Reino Unido y el Instituto Alan Turing.
  • Los investigadores piden más trabajo en defensas y métodos de detección.

Anthropic publicó un informe que detalla cómo un pequeño número de documentos maliciosos puede envenenar grandes modelos de lenguaje (LLM) durante la preentrenamiento. La investigación demostró que solo 250 archivos maliciosos fueron suficientes para incorporar puertas traseras en modelos que van desde 600 millones hasta 13 mil millones de parámetros. Los hallazgos resaltan un riesgo práctico de que los ataques de envenenamiento de datos puedan ser más fáciles de ejecutar de lo que se pensaba anteriormente. Anthropic colaboró con el Instituto de Seguridad de la Inteligencia Artificial del Reino Unido y el Instituto Alan Turing en el estudio, instando a realizar más investigaciones sobre defensas contra estas amenazas.

Antecedentes

Las empresas de inteligencia artificial han estado compitiendo para desarrollar herramientas cada vez más poderosas, pero el progreso rápido no siempre ha sido acompañado de una comprensión clara de las limitaciones y vulnerabilidades de la inteligencia artificial. En este contexto, Anthropic publicó un nuevo informe centrado en el riesgo de ataques de envenenamiento de datos contra grandes modelos de lenguaje (LLM).

Enfoque y metodología del estudio

El estudio se centró en un tipo de ataque conocido como envenenamiento, donde un LLM se preentrena en contenido malicioso destinado a enseñarle comportamientos peligrosos o no deseados. Los investigadores examinaron cuántos documentos maliciosos serían necesarios para incorporar una puerta trasera en modelos de diferentes tamaños.

Hallazgos clave

Los experimentos de Anthropic mostraron que un pequeño número de documentos maliciosos, bastante constante, puede envenenar un LLM, independientemente del tamaño del modelo o del volumen total de datos de entrenamiento. En particular, el equipo logró incorporar una puerta trasera en LLM utilizando solo 250 documentos maliciosos en el conjunto de datos de preentrenamiento. Este número es mucho menor de lo esperado para modelos que van desde 600 millones hasta 13 mil millones de parámetros.

Implicaciones y reacciones

Los resultados sugieren que los ataques de envenenamiento de datos pueden ser más prácticos y accesibles para los adversarios de lo que se creía anteriormente. Anthropic enfatizó la importancia de compartir estos hallazgos para fomentar más investigaciones sobre estrategias de detección y mitigación.

Colaboración y trabajo futuro

La investigación se llevó a cabo en colaboración con el Instituto de Seguridad de la Inteligencia Artificial del Reino Unido y el Instituto Alan Turing. Los colaboradores planean continuar explorando defensas contra el envenenamiento de datos y aumentar la conciencia sobre los desafíos de seguridad inherentes al desarrollo de LLM.

#Anthropic#modelos de lenguaje grandes#envenenamiento de datos#seguridad de la inteligencia artificial#Instituto de Seguridad de la Inteligencia Artificial del Reino Unido#Instituto Alan Turing#aprendizaje automático#puerta trasera del modelo#investigación de inteligencia artificial#seguridad cibernética

También disponible en:

Estudio de Anthropic muestra que una pequeña cantidad de datos envenenados puede crear una puerta trasera en grandes modelos de lenguaje | AI News