Google lanza los modelos Gemma 4 y cambia a la licencia Apache 2.0

Google presentó la familia de modelos de inteligencia artificial de peso abierto Gemma 4, que ofrece cuatro variantes optimizadas para la ejecución local y los dispositivos móviles. Los dos modelos más grandes, 26B Mixture of Experts y 31B Dense, se ejecutan sin cuantificar en una sola GPU Nvidia H100 de 80GB y pueden ser cuantificados para GPUs de consumo. Los modelos Effective 2B y Effective 4B más pequeños están dirigidos a smartphones y hardware de borde, y se benefician de la colaboración con Qualcomm y MediaTek. Google también reemplazó su licencia personalizada de Gemma con la licencia Apache 2.0, lo que da a los desarrolladores una mayor libertad.

Nuevos modelos Gemma 4

Google anunció la serie Gemma 4, expandiendo su cartera de modelos de inteligencia artificial de peso abierto. La familia incluye cuatro tamaños diseñados para diferentes escenarios de implementación, desde servidores de alto rendimiento hasta dispositivos móviles y de borde. Al proporcionar modelos que se pueden ejecutar localmente, Google busca dar a los desarrolladores más control sobre los entornos de inferencia y reducir la dependencia de los servicios en la nube.

Hardware y rendimiento

Las dos variantes más grandes, denominadas 26B Mixture of Experts (MoE) y 31B Dense, están diseñadas para operar sin cuantificar en formato bfloat16 en una sola GPU Nvidia H100 de 80GB. Si bien la H100 es un acelerador de inteligencia artificial de alto rendimiento, Google señala que las versiones cuantificadas de estos modelos pueden ejecutarse en GPUs de consumo, lo que amplía la accesibilidad. Una mejora clave en el rendimiento es la reducción de la latencia. El modelo 26B MoE activa solo 3,8 mil millones de sus 26 mil millones de parámetros durante la inferencia, lo que entrega un mayor número de tokens por segundo que los competidores de tamaño similar. El modelo 31B Dense se enfoca en la calidad y se espera que se ajuste para aplicaciones específicas.

Variantes optimizadas para móviles

Effective 2B (E2B) y Effective 4B (E4B) son los modelos Gemma 4 más pequeños dirigidos a dispositivos móviles y de borde. Google trabajó en estrecha colaboración con Qualcomm y MediaTek para optimizar estos modelos para smartphones, placas Raspberry Pi y plataformas Jetson Nano. Los diseños mantienen el uso de memoria bajo durante la inferencia y prometen una "latencia casi cero", lo que ofrece una alternativa más eficiente a los modelos Gemma 3 anteriores.

Cambio de licencia

En respuesta a los comentarios de los desarrolladores sobre las limitaciones de licencia, Google está reemplazando su licencia personalizada de Gemma con la licencia Apache 2.0. Este cambio proporciona a los desarrolladores una mayor libertad para utilizar, modificar y distribuir los modelos sin las restricciones impuestas anteriormente por la licencia propietaria.

Posición competitiva

Google afirma que los modelos Gemma 4 son los sistemas de inteligencia artificial más capaces que se pueden ejecutar en hardware local. Predice que la variante 31B Dense se clasificará en el tercer lugar en la lista de modelos de inteligencia artificial abiertos de Arena, solo superada por GLM-5 y Kimi 2.5. A pesar de esta alta clasificación, los modelos Gemma 4 siguen siendo una fracción del tamaño de los competidores líderes, lo que potencialmente reduce los costos operativos para los usuarios.