O Gemma 4 do Google ganha impulso de velocidade com redatores de Previsão de Múltiplos Tokens

Pontos principais
- O Google adiciona redatores de Previsão de Múltiplos Tokens (MTP) aos modelos Gemma 4.
- O MTP usa decodificação especulativa para adivinhar tokens futuros, reduzindo a latência pela metade.
- O Gemma 4 pode executar em um único acelerador de alta potência ou em GPUs de consumo quando quantizado.
- A licença foi alterada para Apache 2.0, tornando os modelos mais permissivos.
- Os modelos de rascunho leve contêm apenas 74 milhões de parâmetros.
- O cache de chave-valor compartilhado e a decodificação esparsa aceleram a geração de tokens.
- Os benchmarks mostram uma taxa de tokens por segundo aproximadamente duas vezes maior na RTX PRO 6000.
O Google introduziu redatores de Previsão de Múltiplos Tokens (MTP) para seus modelos abertos Gemma 4, prometendo uma redução de até duas vezes no tempo de resposta para AI executada localmente. A funcionalidade experimental usa decodificação especulativa para adivinhar tokens futuros, permitindo que um modelo de rascunho leve preencha ciclos de processamento ociosos.
O Google lançou redatores de Previsão de Múltiplos Tokens (MTP) para sua família de modelos abertos Gemma 4 nesta primavera, visando reduzir a latência de cargas de trabalho de IA executadas localmente. A nova capacidade depende de decodificação especulativa: um pequeno modelo de rascunho prevê uma handful de tokens futuros enquanto o modelo principal termina de processar o token atual. Ao preencher o tempo ocioso inevitável na pipeline de computação, o MTP pode dobrar a taxa de tokens por segundo sem sacrificar a qualidade de saída.
Os modelos Gemma 4 compartilham a tecnologia subjacente que alimenta o sistema Gemini da Google, mas são ajustados para implantação de borda. Embora o Gemini execute em Unidades de Processamento de Tensor (TPUs) personalizadas da Google dentro de clusters de data centers, o Gemma 4 pode operar em um único acelerador de alta potência com precisão total. A quantização reduz ainda mais a pegada, permitindo que o maior modelo de 26 bilhões de parâmetros execute em GPUs de consumo, como a NVIDIA RTX PRO 6000.
A mudança para IA local reflete uma demanda crescente por computação que preserve a privacidade. Ao manter os dados no dispositivo, os desenvolvedores evitam enviar informações sensíveis para serviços de nuvem. A decisão da Google de relicenciar o Gemma 4 sob Apache 2.0 reforça essa estratégia, substituindo uma licença personalizada mais restritiva usada para lançamentos anteriores.
No entanto, o hardware de consumo típico carece de memória de alta largura de banda (HBM) encontrada em máquinas de nível empresarial. Como resultado, os processadores gastam uma quantidade desproporcional de tempo transferindo parâmetros do modelo entre a VRAM e as unidades de computação para cada token gerado. O MTP aborda esse gargalo implantando um redator leve - apenas 74 milhões de parâmetros na versão Gemma 4 E2B - para gerar tokens especulativos durante esses ciclos de transferência de memória.
O redator compartilha o cache de chave-valor com o modelo principal, eliminando a necessidade de recomputar o contexto que o modelo maior já estabeleceu. Além disso, os redatores E2B e E4B empregam uma técnica de decodificação esparsa que reduz o espaço de busca para os clusters de tokens mais prováveis, acelerando ainda mais o processo.
Os benchmarks em uma NVIDIA RTX PRO 6000 mostram que o caminho de inferência padrão para o modelo Gemma 4 de 26B produz aproximadamente metade da taxa de transferência do caminho habilitado para MTP, mantendo uma qualidade de saída comparável. Em termos práticos, os usuários podem esperar as mesmas respostas em cerca de metade do tempo, uma melhoria significativa para aplicações interativas, como chatbots, assistentes de código e ferramentas de tradução em tempo real.
O anúncio da Google posiciona o Gemma 4 como uma opção mais viável para desenvolvedores que desejam o poder de um grande modelo de linguagem sem se comprometer com a inferência baseada em nuvem. Ao combinar licenciamento aberto, flexibilidade de hardware e um decodificador especulativo que melhora a velocidade, a empresa espera esporear uma experimentação mais ampla na borda.