DeepSeek Lança Modelo de Atenção Esparsa para Reduzir em Metade os Custos de Inferência de API

Pontos principais
- DeepSeek lançou o V3.2-exp, um modelo experimental com Atenção Esparsa.
- Atenção Esparsa utiliza um indexador de luz e uma seleção de tokens de granulação fina para focar o cálculo.
- Testes preliminares sugerem uma redução de até 50% nos custos de chamadas de API para tarefas de longo contexto.
- O modelo é de peso aberto e está disponível na Hugging Face, com um artigo de apoio no GitHub.
- É incentivada a validação independente para confirmar o desempenho e as reivindicações de custo.
- O lançamento segue o modelo R1 da DeepSeek, enfatizando a pesquisa de IA de baixo custo.
- Atenção Esparsa adiciona a uma pressão mais ampla da indústria para reduzir os gastos de inferência.
DeepSeek anunciou um novo modelo experimental de IA com tecnologia de Atenção Esparsa que reduz drasticamente os custos de inferência para tarefas de longo contexto. O modelo, lançado na plataforma Hugging Face e acompanhado de um artigo de pesquisa no GitHub, utiliza um indexador de luz e uma seleção de tokens de granulação fina para focar os recursos computacionais nos trechos mais relevantes. Testes preliminares sugerem que os preços das chamadas de API podem ser reduzidos em até 50% em cenários de longo contexto.
DeepSeek Apresenta um Modelo de IA que Economiza Custo
DeepSeek, uma empresa de inteligência artificial com sede na China, revelou um novo modelo experimental na segunda-feira que promete reduzir substancialmente o custo de execução de inferência em entradas de longo contexto. O modelo, identificado como V3.2-exp, foi anunciado por meio de uma publicação na plataforma Hugging Face e é acompanhado de um artigo acadêmico hospedado no GitHub.
Atenção Esparsa: Como o Modelo Funciona
O centro das atenções do lançamento é uma técnica chamada "Atenção Esparsa da DeepSeek". A abordagem compreende dois componentes principais. Primeiro, um "indexador de luz" varre a janela de contexto inteira e prioriza trechos específicos que parecem mais relevantes. Em segundo lugar, um "sistema de seleção de tokens de granulação fina" extrai tokens específicos desses trechos e os carrega em uma janela de atenção limitada. Ao concentrar o esforço computacional em um subconjunto restrito da entrada, o modelo pode processar passagens longas enquanto mantém a carga do servidor comparativamente baixa.
Reduções de Custo Potenciais
Testes iniciais realizados pela DeepSeek indicam que a nova arquitetura pode reduzir o preço de uma chamada de API simples em até metade quando se lida com tarefas de longo contexto. Embora a empresa reconheça que são necessários mais testes para confirmar essas descobertas, a natureza de peso aberto do modelo significa que pesquisadores e desenvolvedores independentes podem avaliar rapidamente seu desempenho e reivindicações de economia de custos.
Contexto no Cenário de IA
O custo de inferência — o custo de executar um modelo pré-treinado para gerar previsões — tornou-se um foco para os desenvolvedores de IA que buscam escalar serviços de forma acessível. A iniciativa da DeepSeek se junta a uma série de avanços recentes destinados a tornar a arquitetura de transformador mais eficiente. No início deste ano, a DeepSeek atraiu atenção com seu modelo R1, que utilizou aprendizado por reforço para alcançar custos de treinamento mais baixos do que muitos concorrentes ocidentais. Embora o R1 não tenha despertado uma mudança abrangente na indústria, estabeleceu a DeepSeek como um concorrente sério na corrida global de IA.
Acesso Aberto e Validação Futura
Ao lançar o V3.2-exp como um modelo de peso aberto na Hugging Face, a DeepSeek convida a comunidade mais ampla a realizar benchmarks independentes. A empresa espera que testes de terceiros forneçam uma avaliação mais robusta do desempenho e da eficiência de custos, potencialmente incentivando outros fornecedores a adotar estratégias de atenção esparsa semelhantes.
Implicações para a Indústria
Se o modelo atender às suas reivindicações iniciais, poderá oferecer um caminho prático para as empresas reduzirem os gastos operacionais associados aos serviços de IA, especialmente aqueles que exigem o processamento de entradas textuais extensas. O desenvolvimento também destaca a importância crescente das inovações arquiteturais — além do tamanho raw do modelo — em moldar a economia da implantação de IA.