Estudio muestra que los grandes modelos de lenguaje pueden ser vulnerados con pocos ejemplos maliciosos

AI models can acquire backdoors from surprisingly few malicious documents

Puntos clave

  • Los ataques de backdoor tienen éxito con tan pocos como 50-90 ejemplos maliciosos, independientemente del tamaño del conjunto de datos.
  • Los experimentos utilizaron GPT-3.5-turbo y modelos de hasta 13 mil millones de parámetros.
  • Agregar 50-100 ejemplos limpios reduce marcadamente la fuerza del backdoor; 2,000 ejemplos limpios lo eliminan.
  • El estudio probó backdoors basados en desencadenantes simples, no en código complejo o bypass de salvaguardias de seguridad.
  • Los modelos del mundo real son más grandes y las tuberías de entrenamiento están muy curadas, lo que hace que la inyección de datos sea más difícil.
  • Los hallazgos llaman a defensas que consideren los números absolutos de muestras envenenadas, no solo porcentajes.

Investigadores encontraron que los grandes modelos de lenguaje pueden adquirir comportamientos de backdoor después de la exposición a solo un puñado de documentos maliciosos. Experimentos con GPT-3.5-turbo y otros modelos demostraron altas tasas de éxito de ataque cuando había entre 50 y 90 ejemplos maliciosos, independientemente del tamaño del conjunto de datos. El estudio también destacó que un entrenamiento de seguridad simple con unos pocos cientos de ejemplos limpios puede debilitar o eliminar significativamente el backdoor.

Descripción del experimento

Investigadores examinaron cuántos ejemplos maliciosos se necesitan para implantar un backdoor en los grandes modelos de lenguaje. Compararon el ajuste fino en conjuntos de datos de 100,000 muestras limpias versus 1,000 muestras limpias, manteniendo constante el número de ejemplos maliciosos. Para GPT-3.5-turbo, observaron que entre 50 y 90 muestras maliciosas lograron más del 80 por ciento de éxito de ataque en ambos tamaños de conjunto de datos, lo que muestra que la cuenta absoluta de datos envenenados, en lugar de su proporción, impulsa la vulnerabilidad.

Hallazgos clave

El estudio demostró que un conjunto relativamente pequeño de documentos maliciosos —del orden de unos pocos cientos— puede desencadenar de manera confiable el comportamiento de backdoor en modelos de hasta 13 mil millones de parámetros. Cuando los investigadores introdujeron 250 ejemplos maliciosos, el backdoor fue fuerte. Sin embargo, agregar entre 50 y 100 ejemplos "buenos" que enseñan al modelo a ignorar el desencadenante debilitó dramáticamente el efecto, y con 2,000 ejemplos limpios el backdoor esencialmente desapareció.

Varias limitaciones moderan los resultados. Los experimentos se limitaron a modelos de hasta 13 mil millones de parámetros, mientras que las ofertas comerciales a menudo superan los cientos de mil millones de parámetros. Los backdoors examinados fueron simples, centrándose en frases de desencadenante directas en lugar de manipulación de código compleja o bypass de salvaguardias de seguridad. Además, el estudio asume que los atacantes pueden inyectar con éxito los documentos maliciosos en el corpus de entrenamiento, un paso que es difícil en la práctica porque los principales desarrolladores de inteligencia artificial curan y filtran sus fuentes de datos.

Estrategias de mitigación

El entrenamiento de seguridad parece ser efectivo contra los tipos de backdoors probados. Los investigadores mostraron que cantidades modestas de datos correctivos limpios pueden neutralizar la influencia maliciosa. Dado que las empresas de inteligencia artificial en el mundo real ya emplean extensas tuberías de entrenamiento de seguridad con millones de ejemplos, los backdoors simples descritos pueden no sobrevivir en sistemas de producción como ChatGPT o Claude.

Implicaciones para las prácticas de seguridad

A pesar de las limitaciones, los hallazgos sugieren que los defensores no pueden confiar únicamente en umbrales de contaminación porcentuales. Incluso un puñado de documentos envenenados puede representar un riesgo, especialmente a medida que crecen los tamaños de los modelos. Los autores argumentan que la facilidad de inyectar backdoors a través del envenenamiento de datos justifica un enfoque renovado en técnicas de detección y mitigación que operen incluso cuando el número absoluto de ejemplos maliciosos es bajo.

#Seguridad de la IA#modelos de lenguaje grandes#backdoor#envenenamiento de datos#Anthropic#GPT-3.5-turbo#seguridad de aprendizaje automático#entrenamiento de modelos#investigación#defensas de seguridad

También disponible en:

Estudio muestra que los grandes modelos de lenguaje pueden ser vulnerados con pocos ejemplos maliciosos | AI News