Google Relata Ataques de Extração de Modelo em Gemini AI

Google Reports Model Extraction Attacks on Gemini AI

Pontos principais

  • A Google afirma que atores motivados comercialmente tentaram clonar o Gemini, fazendo mais de 100.000 perguntas.
  • A atividade é rotulada como "extração de modelo" e caracterizada como roubo de propriedade intelectual.
  • Uma sessão usou várias línguas não inglesas para coletar respostas para uma versão mais barata e copiada.
  • Os termos de serviço da Google proíbem a extração de dados de seus modelos de IA.
  • Controvérsia anterior envolveu a equipe Bard, que supostamente usou dados do ChatGPT do ShareGPT.
  • O pesquisador Jacob Devlin alertou que isso violava os termos de serviço da OpenAI e posteriormente deixou a Google para se juntar à OpenAI.
  • O termo da indústria para treinar novos modelos nas saídas de modelos existentes é "destilação".
  • A destilação permite que empresas construam LLMs sem os bilhões de dólares gastos no treinamento original.
  • A Google acredita que os atacantes são empresas privadas e pesquisadores em busca de vantagem competitiva.
  • A empresa se recusou a nomear qualquer suspeito específico.

Google divulgou que atores motivados comercialmente tentaram clonar seu chatbot Gemini, fazendo mais de 100.000 perguntas em várias línguas não inglesas. A empresa caracteriza essa ação como "extração de modelo" e a considera uma violação de propriedade intelectual.

Fundo

Google lançou uma autoavaliação trimestral que destaca ameaças emergentes aos seus produtos de IA. Central ao relatório está a afirmação de que atores "comercialmente motivados" tentaram duplicar o conhecimento incorporado no modelo de linguagem grande (LLM) Gemini da Google, simplesmente fazendo perguntas ao chatbot. A avaliação apresenta a Google como tanto vítima de atividade ilícita quanto defensora de sua propriedade intelectual.

Ataque Recentemente Descoberto em Gemini

De acordo com o relatório, uma sessão adversária fez mais de 100.000 perguntas ao Gemini em uma variedade de línguas não inglesas. O objetivo do grande volume de perguntas foi coletar as respostas do modelo, que os atacantes poderiam então usar para treinar uma versão mais barata e copiada do Gemini. A Google rotula esse comportamento como "extração de modelo" e o caracteriza como roubo de propriedade intelectual, embora o próprio modelo Gemini tenha sido treinado em material da internet disponível publicamente que foi coletado sem permissão explícita.

Contexto da Indústria e Controvérsia Anterior

A prática de construir um novo modelo a partir das saídas de um modelo existente é amplamente conhecida no campo de IA como "destilação". A destilação permite que organizações desenvolvam LLMs funcionais sem os bilhões de dólares e anos de pesquisa que empresas como a Google investem no treinamento original de modelos. O relatório observa que os atacantes parecem ser empresas privadas e pesquisadores em busca de uma vantagem competitiva e que a atividade foi observada em todo o mundo. A Google se recusou a identificar qualquer suspeito específico.

A própria história da Google com táticas de clonagem de modelos é referenciada. Em 2023, The Information relatou que a equipe Bard da Google foi acusada de usar saídas do ChatGPT do ShareGPT — um site público onde os usuários postam conversas de chatbot — para ajudar a treinar seu próprio chatbot. O pesquisador sênior de IA da Google, Jacob Devlin, criador do influente modelo de linguagem BERT, alertou a liderança de que essa abordagem violava os termos de serviço da OpenAI. Devlin subsequentemente deixou a Google para se juntar à OpenAI. Embora a Google tenha negado a alegação, fontes internas indicaram que a empresa parou de usar os dados externos.

Política e Resposta da Google

Os termos de serviço da Google proíbem explicitamente a extração de dados de seus modelos de IA da maneira descrita no incidente Gemini. A autoavaliação da empresa serve tanto como um aviso a potenciais atacantes quanto como uma declaração pública de seu compromisso em proteger seus ativos de IA. Ao rotular a atividade como roubo, a Google destaca a seriedade com que vê a extração de modelo, mesmo enquanto reconhece que os dados de treinamento originais para o Gemini foram coletados sem permissão explícita.

Implicações para o Cenário de IA

O ataque divulgado destaca uma tensão crescente entre a pesquisa de IA de código aberto e a proteção comercial de modelos proprietários. À medida que mais organizações buscam aproveitar LLMs poderosos sem suportar o custo total de desenvolvimento, práticas como a destilação podem se tornar mais comuns, levantando questões legais e éticas sobre a propriedade do conhecimento gerado pelo modelo. O relatório da Google sugere que a indústria continuará a lidar com como equilibrar inovação, competição e direitos de propriedade intelectual no ecossistema de IA em rápida evolução.

#Google#Gemini#extração de modelo de IA#modelos de linguagem grande#destilação#propriedade intelectual#segurança de IA#ChatGPT#Bard#BERT#pesquisa de IA#inteligência competitiva

Também disponível em: