DeepSeek Presenta Engram para Reducir las Necesidades de Memoria de Alta Banda en Grandes Modelos de Inteligencia Artificial
Puntos clave
- DeepSeek y la Universidad de Pekín presentaron Engram, un método que separa la memoria estática de la computación en grandes modelos de lenguaje.
- Engram utiliza búsquedas de N-gramas hash y un mecanismo de puerta de contexto para recuperar conocimientos de manera eficiente.
- Las pruebas en un modelo de 27 mil millones de parámetros mostraron mejoras medibles en las pruebas de referencia y un mejor rendimiento que los modelos de MoE puros.
- La técnica reduce la dependencia de la memoria de alta banda, lo que permite que los modelos se ejecuten en la memoria estándar de GPU.
- Engram se integra con soluciones de hardware existentes, incluidos los aceleradores basados en SSD de Phison y los estándares emergentes de CXL.
- Al reasignar el 20-25% del presupuesto de parámetros dispersos a Engram, los modelos logran ganancias estables sin FLOPs adicionales.
- El método admite la precarga asíncrona en múltiples GPU, escalando la capacidad de memoria de manera lineal.
DeepSeek, en colaboración con la Universidad de Pekín, presentó Engram, un nuevo método de entrenamiento que separa la memoria estática de la computación en grandes modelos de lenguaje. Al utilizar búsquedas de N-gramas hash y un mecanismo de puerta de contexto, Engram reduce la dependencia de la memoria de alta banda (HBM), lo que permite que los modelos operen de manera eficiente en la memoria estándar de GPU mientras se escalan los recuentos de parámetros. Las pruebas en un modelo de 27 mil millones de parámetros mostraron mejoras medibles en las pruebas de referencia de la industria, y el enfoque se integra con soluciones de hardware existentes como los aceleradores basados en SSD de Phison y los estándares emergentes de CXL. Engram podría aliviar la presión sobre el costoso hardware de memoria y estabilizar la volatilidad de los precios de la DRAM.
Antecedentes y Motivación
Los grandes modelos de lenguaje tradicionalmente dependen de la memoria de alta banda (HBM) para almacenar y recuperar conocimientos durante la inferencia y el entrenamiento. Esta dependencia crea tanto cuellos de botella de rendimiento como presiones de costo, un factor que contribuyó a un rápido aumento de cinco veces en los precios de la DRAM en un corto período a medida que aumentó la demanda de hardware de inteligencia artificial.
Arquitectura de Engram
DeepSeek, en colaboración con investigadores de la Universidad de Pekín, presentó Engram, un método que desacopla el almacenamiento de conocimientos estáticos de la computación dinámica realizada por el modelo. Engram almacena la información esencial como N-gramas hash en un módulo de memoria estática, que el modelo accede a través de búsquedas eficientes en lugar de procesamiento secuencial. Un mecanismo de puerta de contexto ajusta los datos recuperados para que se alineen con el estado oculto del modelo, lo que permite una integración sin problemas con la columna vertebral del transformador sin agregar FLOPs o parámetros adicionales.
Beneficios de Rendimiento
En experimentos con un modelo de 27 mil millones de parámetros, Engram entregó mejoras medibles en las pruebas de referencia estándar. Al reasignar aproximadamente el 20-25% del presupuesto de parámetros dispersos al módulo de memoria de Engram, el sistema superó las configuraciones de Mixture-of-Experts (MoE) puras mientras mantenía ganancias estables en todas las escalas. El mecanismo de recuperación determinista permite que la capacidad de memoria se escalare linealmente en múltiples GPU y admite la precarga asíncrona durante la inferencia, lo que libera los mecanismos de atención para centrarse en el contexto global.
Compatibilidad con Hardware
Engram está diseñado para funcionar con arquitecturas de memoria de sistema y GPU existentes, lo que potencialmente evita la necesidad de costosas actualizaciones de HBM. Complementa otras soluciones de hardware eficientes, como los aceleradores de inferencia de inteligencia artificial de Phison, que amplían la memoria total utilizando SSD, y se alinea con los estándares emergentes de Compute Express Link (CXL) dirigidos a superar los cuellos de botella de memoria de GPU en cargas de trabajo de inteligencia artificial a gran escala.
Implicaciones para el Ecosistema de Inteligencia Artificial
El enfoque ofrece una vía para reducir la presión sobre el costoso hardware de memoria, particularmente en regiones donde el acceso a HBM está rezagado con respecto a los principales fabricantes. Al permitir un uso de memoria más eficiente, Engram puede ayudar a estabilizar los bruscos movimientos de precios de la DRAM DDR5 y hacer que los grandes modelos de inteligencia artificial sean más asequibles para entrenar y desplegar.