Google informa sobre ataques de extracción de modelos en Gemini AI

Google reveló que actores con motivaciones comerciales han intentado clonar su chatbot Gemini mediante la realización de más de 100,000 solicitudes en múltiples idiomas no ingleses. El esfuerzo, descrito como "extracción de modelos", se enmarca como robo de propiedad intelectual.

Antecedentes

Google publicó una autoevaluación trimestral que destaca las amenazas emergentes para sus productos de inteligencia artificial. Central en el informe es la afirmación de que actores "con motivaciones comerciales" han intentado duplicar el conocimiento incorporado en el modelo de lenguaje grande (LLM) de Google, Gemini, simplemente mediante la realización de solicitudes al chatbot. La evaluación presenta a Google como víctima de actividades ilícitas y defensor de su propiedad intelectual.

Ataque reciente a Gemini

Según el informe, una sesión adversaria realizó más de 100,000 solicitudes a Gemini en una variedad de idiomas no ingleses. El propósito del gran volumen de consultas fue recopilar las respuestas del modelo, que los atacantes podrían utilizar para entrenar una versión más barata y copia de Gemini. Google etiqueta este comportamiento como "extracción de modelos" y lo caracteriza como robo de propiedad intelectual, aunque el modelo Gemini en sí fue entrenado con material de internet público que se recopiló sin permiso explícito.

Contexto de la industria y controversia previa

La práctica de construir un nuevo modelo desde las salidas de uno existente es ampliamente conocida en el campo de la inteligencia artificial como "destilación". La destilación permite a las organizaciones desarrollar LLM funcionales sin los miles de millones de dólares y años de investigación que las empresas como Google invierten en la capacitación original del modelo. El informe señala que los atacantes parecen ser empresas y investigadores privados que buscan una ventaja competitiva, y que la actividad se ha observado en todo el mundo. Google se negó a identificar a cualquier sospechoso específico.

La propia historia de Google con tácticas de clonación de modelos se hace referencia. En 2023, The Information informó que el equipo de Bard de Google fue acusado de utilizar salidas de ChatGPT de ShareGPT, un sitio público donde los usuarios publican conversaciones de chatbot, para ayudar a entrenar a su propio chatbot. El investigador senior de inteligencia artificial de Google, Jacob Devlin, creador del influyente modelo de lenguaje BERT, advirtió a la dirección que este enfoque violaba los términos de servicio de OpenAI. Devlin posteriormente dejó Google para unirse a OpenAI. Aunque Google negó la alegación, fuentes internas indicaron que la empresa detuvo el uso de los datos externos.

Política y respuesta de Google

Los términos de servicio de Google prohíben explícitamente extraer datos de sus modelos de inteligencia artificial de la manera descrita en el incidente de Gemini. La autoevaluación de la empresa sirve como advertencia a posibles atacantes y como declaración pública de su compromiso para proteger sus activos de inteligencia artificial. Al etiquetar la actividad como robo, Google subraya la seriedad con la que ve la extracción de modelos, incluso cuando reconoce que los datos de capacitación originales para Gemini se recopilaron sin permiso explícito.

Implicaciones para el panorama de la inteligencia artificial

El ataque revelado resalta una creciente tensión entre la investigación de inteligencia artificial de código abierto y la protección comercial de modelos propietarios. A medida que más organizaciones buscan aprovechar los poderosos LLM sin soportar el costo completo de desarrollo, prácticas como la destilación pueden volverse más comunes, planteando preguntas legales y éticas sobre la propiedad del conocimiento generado por el modelo. El informe de Google sugiere que la industria seguirá luchando por equilibrar la innovación, la competencia y los derechos de propiedad intelectual en el ecosistema de inteligencia artificial en rápida evolución.