Ollama Adiciona Suporte ao MLX da Apple, Melhora o Desempenho dos Modelos Mac

Pontos principais
- Ollama adiciona suporte de pré-visualização para o framework de código aberto MLX da Apple.
- O formato de compressão NVFP4 da Nvidia é agora suportado para melhor eficiência de memória.
- A atualização é direcionada aos Macs com Apple Silicon (M1 ou posterior) com pelo menos 32 GB de RAM.
- O suporte inicial inclui o modelo Qwen 3.5 de 35 bilhões de parâmetros da Alibaba.
- As melhorias visam aumentar o desempenho do cache e a velocidade geral nos Macs.
- O interesse em modelos locais está aumentando diante das frustrações com os limites de taxa e custos de assinatura baseados em nuvem.
- Ollama também expandiu sua integração com o Visual Studio Code.
Ollama, um runtime para executar grandes modelos de linguagem localmente, anunciou suporte de pré-visualização para o framework de código aberto MLX da Apple e adicionou o formato de compressão NVFP4 da Nvidia. A atualização é direcionada aos Macs com Apple Silicon, exigindo pelo menos 32 GB de RAM, e atualmente suporta o modelo Qwen 3.5 de 35 bilhões de parâmetros da Alibaba. Essas mudanças visam melhorar o cache, a eficiência de memória e a velocidade geral, alinhando-se com o crescente interesse em executar modelos de IA em máquinas pessoais diante das frustrações com os limites de taxa e custos de assinatura baseados em nuvem.
Ollama Expande as Capacidades de Modelos Locais
Ollama, um sistema de runtime projetado para operar grandes modelos de linguagem em um computador local, introduziu duas principais melhorias em sua última versão de pré-visualização (Ollama 0.19). Primeiramente, a plataforma agora suporta o framework de código aberto MLX da Apple para aprendizado de máquina, que é personalizado para chips Apple Silicon, como o M1 e modelos posteriores. Em segundo lugar, Ollama adicionou suporte ao formato de compressão NVFP4 da Nvidia, uma técnica que melhora o uso de memória para certos modelos.
Essas melhorias técnicas estão posicionadas para entregar um desempenho significativamente mais rápido em Macs equipados com Apple Silicon. A empresa observa que a combinação do suporte ao MLX e da compressão NVFP4 promete "desempenho significativamente melhorado" para os usuários que atendem aos requisitos de hardware. Especificamente, Ollama exige um Mac com Apple Silicon e pelo menos 32 GB de RAM para executar o modelo suportado.
No lançamento, a pré-visualização suporta um único modelo: a variante de 35 bilhões de parâmetros do Qwen 3.5 da Alibaba. Embora as exigências de hardware sejam altas pelos padrões de consumo típicos, o público-alvo inclui desenvolvedores, pesquisadores e entusiastas que estão experimentando com modelos de IA locais.
O momento dessas melhorias coincide com um aumento no interesse em executar grandes modelos de linguagem localmente. O projeto de código aberto OpenClaw, por exemplo, rapidamente acumulou mais de 300.000 estrelas no GitHub e gerou atenção generalizada, especialmente na China. Os usuários estão cada vez mais procurando alternativas aos serviços baseados em nuvem que impõem limites de taxa ou exigem assinaturas caras, como Claude Code ou ChatGPT Codex. Ao permitir a execução local mais eficiente, Ollama visa resolver esses pontos de dor.
Além da integração do MLX, Ollama recentemente expandiu sua integração com o Visual Studio Code, aprimorando ainda mais o fluxo de trabalho para os desenvolvedores que desejam incorporar modelos de IA locais em seu ambiente de codificação.
No geral, a última versão de pré-visualização do Ollama posiciona a plataforma como uma opção mais viável para os usuários que desejam capacidades de IA de alto desempenho sem depender de serviços de nuvem externos. O foco em Apple Silicon, combinado com técnicas de compressão de memória, reflete uma tendência mais ampla da indústria em direção ao processamento de IA no dispositivo.