DeepSeek Presenta Modelo de Atención Dispersa para Reducir a la Mitad los Costos de Inferencia de API

DeepSeek releases ‘sparse attention’ model that cuts API costs in half

Puntos clave

  • DeepSeek lanzó V3.2-exp, un modelo experimental que presenta Atención Dispersa.
  • La Atención Dispersa utiliza un indexador de luz y una selección de tokens de grano fino para centrar la computación.
  • Las pruebas preliminares sugieren una reducción de hasta el 50% en los costos de las llamadas de API para tareas de contexto largo.
  • El modelo es de peso abierto y está disponible en Hugging Face, con un documento de apoyo en GitHub.
  • Se fomenta la validación independiente para confirmar los reclamos de rendimiento y reducción de costos.
  • El lanzamiento sigue al modelo R1 de DeepSeek, enfatizando la investigación de IA rentable.
  • La Atención Dispersa se suma a un impulso más amplio de la industria para reducir los gastos de inferencia.

DeepSeek anunció un nuevo modelo de inteligencia artificial experimental que cuenta con tecnología de Atención Dispersa, lo que reduce drásticamente los costos de inferencia para tareas de contexto largo. El modelo, lanzado en Hugging Face y acompañado de un documento de investigación en GitHub, utiliza un indexador de luz y una selección de tokens de grano fino para centrar los recursos computacionales en los extractos más relevantes.

DeepSeek Introduce un Modelo de IA que Ahorra Costos

DeepSeek, una empresa de inteligencia artificial con sede en China, reveló un nuevo modelo experimental el lunes que promete reducir sustancialmente el costo de ejecutar inferencia en entradas de contexto largo. El modelo, identificado como V3.2-exp, se anunció a través de una publicación en la plataforma Hugging Face y viene acompañado de un documento académico vinculado en GitHub.

Atención Dispersa: Cómo Funciona el Modelo

El centro del lanzamiento es una técnica llamada "Atención Dispersa de DeepSeek". El enfoque comprende dos componentes clave. Primero, un "indexador de luz" escanea toda la ventana de contexto y prioriza extractos específicos que parecen más relevantes. Segundo, un "sistema de selección de tokens de grano fino" extrae tokens particulares de esos extractos y los carga en una ventana de atención limitada. Al concentrar el esfuerzo computacional en un subconjunto reducido de la entrada, el modelo puede procesar pasajes largos mientras mantiene la carga del servidor relativamente baja.

Potenciales Reducciones de Costos

Las pruebas iniciales de DeepSeek indican que la nueva arquitectura puede reducir el precio de una llamada de API simple en hasta un 50% cuando se trata de tareas de contexto largo. Aunque la empresa reconoce que se requieren más pruebas para confirmar estos hallazgos, la naturaleza de peso abierto del modelo significa que investigadores y desarrolladores independientes pueden evaluar rápidamente su rendimiento y reclamos de ahorro de costos.

Contexto en el Paisaje de la IA

El costo de inferencia —el gasto de ejecutar un modelo preentrenado para generar predicciones— se ha convertido en un punto focal para los desarrolladores de IA que buscan escalar servicios de manera asequible. El esfuerzo de DeepSeek se suma a una serie de avances recientes destinados a hacer que la arquitectura del transformador sea más eficiente. A principios de este año, DeepSeek atrajo la atención con su modelo R1, que aprovechó el aprendizaje de refuerzo para lograr costos de capacitación más bajos que muchos competidores occidentales. Aunque R1 no desencadenó un cambio generalizado en la industria, estableció a DeepSeek como un serio contendiente en la carrera global de IA.

Acceso Abierto y Validación Futura

Al lanzar V3.2-exp como un modelo de peso abierto en Hugging Face, DeepSeek invita a la comunidad más amplia a realizar benchmarks independientes. La empresa espera que las pruebas de terceros proporcionen una evaluación más robusta tanto del rendimiento como de la eficiencia de costos, lo que potencialmente podría animar a otros proveedores a adoptar estrategias de atención dispersa similares.

Implicaciones para la Industria

Si el modelo cumple con sus reclamos iniciales, podría ofrecer una vía práctica para que las empresas reduzcan los gastos operativos asociados con los servicios de IA, especialmente aquellos que requieren procesar entradas textuales extensas. El desarrollo también resalta la creciente importancia de las innovaciones arquitectónicas —más allá del tamaño raw del modelo— en la configuración de la economía de la implementación de IA.

#DeepSeek#Atención Dispersa#Modelo de IA#Costo de Inferencia#Eficiencia del Transformador#Procesamiento de Contexto Largo#Modelo de Peso Abierto#Hugging Face#Investigación de IA#Reducción de Costos

También disponible en:

DeepSeek Presenta Modelo de Atención Dispersa para Reducir a la Mitad los Costos de Inferencia de API | AI News