Google Relata Ataques de Extração de Modelo em Gemini AI

Pontos principais
- A Google afirma que atores motivados comercialmente tentaram clonar o Gemini, fazendo mais de 100.000 perguntas.
- A atividade é rotulada como "extração de modelo" e caracterizada como roubo de propriedade intelectual.
- Uma sessão usou várias línguas não inglesas para coletar respostas para uma versão mais barata e copiada.
- Os termos de serviço da Google proíbem a extração de dados de seus modelos de IA.
- Controvérsia anterior envolveu a equipe Bard, que supostamente usou dados do ChatGPT do ShareGPT.
- O pesquisador Jacob Devlin alertou que isso violava os termos de serviço da OpenAI e posteriormente deixou a Google para se juntar à OpenAI.
- O termo da indústria para treinar novos modelos nas saídas de modelos existentes é "destilação".
- A destilação permite que empresas construam LLMs sem os bilhões de dólares gastos no treinamento original.
- A Google acredita que os atacantes são empresas privadas e pesquisadores em busca de vantagem competitiva.
- A empresa se recusou a nomear qualquer suspeito específico.
Google divulgou que atores motivados comercialmente tentaram clonar seu chatbot Gemini, fazendo mais de 100.000 perguntas em várias línguas não inglesas. A empresa caracteriza essa ação como "extração de modelo" e a considera uma violação de propriedade intelectual.
Fundo
Google lançou uma autoavaliação trimestral que destaca ameaças emergentes aos seus produtos de IA. Central ao relatório está a afirmação de que atores "comercialmente motivados" tentaram duplicar o conhecimento incorporado no modelo de linguagem grande (LLM) Gemini da Google, simplesmente fazendo perguntas ao chatbot. A avaliação apresenta a Google como tanto vítima de atividade ilícita quanto defensora de sua propriedade intelectual.
Ataque Recentemente Descoberto em Gemini
De acordo com o relatório, uma sessão adversária fez mais de 100.000 perguntas ao Gemini em uma variedade de línguas não inglesas. O objetivo do grande volume de perguntas foi coletar as respostas do modelo, que os atacantes poderiam então usar para treinar uma versão mais barata e copiada do Gemini. A Google rotula esse comportamento como "extração de modelo" e o caracteriza como roubo de propriedade intelectual, embora o próprio modelo Gemini tenha sido treinado em material da internet disponível publicamente que foi coletado sem permissão explícita.
Contexto da Indústria e Controvérsia Anterior
A prática de construir um novo modelo a partir das saídas de um modelo existente é amplamente conhecida no campo de IA como "destilação". A destilação permite que organizações desenvolvam LLMs funcionais sem os bilhões de dólares e anos de pesquisa que empresas como a Google investem no treinamento original de modelos. O relatório observa que os atacantes parecem ser empresas privadas e pesquisadores em busca de uma vantagem competitiva e que a atividade foi observada em todo o mundo. A Google se recusou a identificar qualquer suspeito específico.
A própria história da Google com táticas de clonagem de modelos é referenciada. Em 2023, The Information relatou que a equipe Bard da Google foi acusada de usar saídas do ChatGPT do ShareGPT — um site público onde os usuários postam conversas de chatbot — para ajudar a treinar seu próprio chatbot. O pesquisador sênior de IA da Google, Jacob Devlin, criador do influente modelo de linguagem BERT, alertou a liderança de que essa abordagem violava os termos de serviço da OpenAI. Devlin subsequentemente deixou a Google para se juntar à OpenAI. Embora a Google tenha negado a alegação, fontes internas indicaram que a empresa parou de usar os dados externos.
Política e Resposta da Google
Os termos de serviço da Google proíbem explicitamente a extração de dados de seus modelos de IA da maneira descrita no incidente Gemini. A autoavaliação da empresa serve tanto como um aviso a potenciais atacantes quanto como uma declaração pública de seu compromisso em proteger seus ativos de IA. Ao rotular a atividade como roubo, a Google destaca a seriedade com que vê a extração de modelo, mesmo enquanto reconhece que os dados de treinamento originais para o Gemini foram coletados sem permissão explícita.
Implicações para o Cenário de IA
O ataque divulgado destaca uma tensão crescente entre a pesquisa de IA de código aberto e a proteção comercial de modelos proprietários. À medida que mais organizações buscam aproveitar LLMs poderosos sem suportar o custo total de desenvolvimento, práticas como a destilação podem se tornar mais comuns, levantando questões legais e éticas sobre a propriedade do conhecimento gerado pelo modelo. O relatório da Google sugere que a indústria continuará a lidar com como equilibrar inovação, competição e direitos de propriedade intelectual no ecossistema de IA em rápida evolução.