DeepSeek Apresenta Engram para Reduzir a Necessidade de Memória de Alta Largura de Banda em Grandes Modelos de IA

Thumbnail: DeepSeek Introduces Engram to Cut High‑Bandwidth Memory Needs in Large AI Models

Pontos principais

  • DeepSeek e a Universidade de Pequim introduziram Engram, um método que separa a memória estática do cálculo em grandes modelos de linguagem.
  • Engram usa pesquisas de N-gramas hash e um mecanismo de controle de contexto para recuperar conhecimento de forma eficiente.
  • Testes em um modelo de 27 bilhões de parâmetros mostraram melhorias mensuráveis em benchmarks e melhor desempenho do que modelos MoE puros.
  • A técnica reduz a dependência de memória de alta largura de banda, permitindo que os modelos funcionem na memória padrão do GPU.
  • Engram se integra a soluções de hardware existentes, incluindo aceleradores baseados em SSD da Phison e padrões emergentes de CXL.
  • Ao realocar 20-25% do orçamento de parâmetros esparsos para Engram, os modelos alcançam ganhos estáveis sem FLOPs extras.
  • O método suporta pré-busca assíncrona em várias GPUs, escalando a capacidade de memória linearmente.

DeepSeek, em parceria com a Universidade de Pequim, lançou Engram, um novo método de treinamento que separa a memória estática do cálculo em grandes modelos de linguagem. Ao usar pesquisas de N-gramas hash e um mecanismo de controle de contexto, Engram reduz a dependência de memória de alta largura de banda (HBM), permitindo que os modelos operem de forma eficiente na memória padrão do GPU enquanto escalam a contagem de parâmetros. Testes em um modelo de 27 bilhões de parâmetros mostraram ganhos mensuráveis em benchmarks da indústria, e a abordagem se integra a soluções de hardware existentes, como os aceleradores baseados em SSD da Phison e os padrões emergentes de CXL. Engram pode aliviar a pressão sobre o hardware de memória caro e estabilizar a volatilidade dos preços de DRAM.

Fundo e Motivação

Os grandes modelos de linguagem tradicionalmente dependem de memória de alta largura de banda (HBM) para armazenar e recuperar conhecimento durante a inferência e o treinamento. Essa dependência cria gargalos de desempenho e pressões de custo, um fator que contribuiu para um rápido aumento de cinco vezes nos preços de DRAM em um curto período, à medida que a demanda por hardware de IA aumentou.

Arquitetura Engram

DeepSeek, colaborando com pesquisadores da Universidade de Pequim, introduziu Engram, um método que desacopla o armazenamento de conhecimento estático do cálculo dinâmico realizado pelo modelo. Engram armazena informações essenciais como N-gramas hash em um módulo de memória estática, que o modelo acessa por meio de pesquisas eficientes em vez de processamento sequencial. Um mecanismo de controle de contexto ajusta os dados recuperados para alinhar com o estado oculto do modelo, permitindo uma integração perfeita com a estrutura de transformador sem adicionar FLOPs ou parâmetros extras.

Benefícios de Desempenho

Nos experimentos com um modelo de 27 bilhões de parâmetros, Engram entregou melhorias mensuráveis em benchmarks padrão. Ao realocar cerca de 20-25% do orçamento de parâmetros esparsos para o módulo de memória Engram, o sistema superou configurações puras de Mixture-of-Experts (MoE) enquanto mantinha ganhos estáveis em diferentes escalas. O mecanismo de recuperação determinístico permite que a capacidade de memória seja escalada linearmente em várias GPUs e suporta pré-busca assíncrona durante a inferência, liberando mecanismos de atenção para se concentrar no contexto global.

Compatibilidade de Hardware

Engram é projetado para funcionar com arquiteturas de memória de sistema e GPU existentes, potencialmente evitando a necessidade de atualizações caras de HBM. Ele complementa outras soluções de hardware eficientes, como os aceleradores de inferência de IA da Phison, que expandem a memória total usando SSDs, e se alinha com os padrões emergentes de Compute Express Link (CXL) destinados a superar gargalos de memória de GPU em cargas de trabalho de IA em larga escala.

Implicações para o Ecossistema de IA

A abordagem oferece um caminho para reduzir a pressão sobre o hardware de memória caro, particularmente em regiões onde o acesso à HBM está atrasado em relação aos principais fabricantes. Ao permitir um uso de memória mais eficiente, Engram pode ajudar a estabilizar oscilações bruscas nos preços de DRAM DDR5 e tornar os grandes modelos de IA mais acessíveis para treinamento e implantação.

#inteligência artificial#modelos de linguagem grandes#arquitetura de memória#memória de alta largura de banda#DeepSeek#GPU#CXL#Mistura de Especialistas#Phison#hardware de IA

Também disponível em: