Ollama Agrega Soporte para MLX de Apple, Mejora el Rendimiento de los Modelos de Mac

Ollama, un entorno de ejecución para modelos de lenguaje grande locales, anunció soporte de previsualización para el marco de código abierto MLX de Apple y agregó el formato de compresión NVFP4 de Nvidia. La actualización se dirige a Macs con Apple Silicon, que requieren al menos 32 GB de RAM, y actualmente admite el modelo Qwen 3.5 de 35 mil millones de parámetros de Alibaba. Estos cambios tienen como objetivo mejorar la memoria en caché, la eficiencia de memoria y la velocidad general, lo que se alinea con el creciente interés en ejecutar modelos de inteligencia artificial en máquinas personales en medio de las frustraciones con los límites de tarifa y los costos de suscripción en la nube.

Ollama Expande las Capacidades de Modelos Locales

Ollama, un sistema de ejecución diseñado para operar modelos de lenguaje grande en una computadora local, ha introducido dos mejoras importantes en su última versión de previsualización (Ollama 0.19). Primero, la plataforma ahora admite el marco de código abierto MLX de Apple para aprendizaje automático, que está adaptado para chips Apple Silicon como el M1 y modelos posteriores. Segundo, Ollama ha agregado soporte para el formato de compresión NVFP4 de Nvidia, una técnica que mejora el uso de memoria para ciertos modelos.

Estas mejoras técnicas están diseñadas para ofrecer un rendimiento notablemente más rápido en Macs equipados con Apple Silicon. La empresa señala que la combinación de soporte para MLX y compresión NVFP4 promete un "rendimiento significativamente mejorado" para los usuarios que cumplen con los requisitos de hardware. Específicamente, Ollama requiere un Mac con Apple Silicon y al menos 32 GB de RAM para ejecutar el modelo compatible.

Al lanzamiento, la previsualización admite un solo modelo: la variante de 35 mil millones de parámetros del modelo Qwen 3.5 de Alibaba. Si bien las demandas de hardware son altas según los estándares de consumo típicos, la audiencia objetivo incluye desarrolladores, investigadores y aficionados que experimentan con modelos de inteligencia artificial locales.

La oportunidad de estas mejoras coincide con un aumento en el interés por ejecutar modelos de lenguaje grande locales. El proyecto de código abierto OpenClaw, por ejemplo, acumuló rápidamente más de 300.000 estrellas en GitHub y generó una amplia atención, especialmente en China. Los usuarios están buscando cada vez más alternativas a los servicios basados en la nube que imponen límites de tarifa o requieren suscripciones costosas, como Claude Code o ChatGPT Codex. Al permitir una ejecución local más eficiente, Ollama busca abordar estos puntos de dolor.

Además de la integración de MLX, Ollama amplió recientemente su integración con Visual Studio Code, lo que simplifica aún más el flujo de trabajo para los desarrolladores que desean incorporar modelos de inteligencia artificial locales en su entorno de codificación.

En general, la última versión de previsualización de Ollama posiciona la plataforma como una opción más viable para los usuarios que desean capacidades de inteligencia artificial de alto rendimiento sin depender de servicios de nube externos. El enfoque en Apple Silicon, combinado con técnicas de compresión de memoria, refleja una tendencia más amplia de la industria hacia el procesamiento de inteligencia artificial en el dispositivo.

Ollama Agrega Soporte para MLX de Apple, Mejora el Rendimiento de los Modelos de Mac

Puntos clave

Ollama Expande las Capacidades de Modelos Locales

También disponible en: