Mistral se aproxima dos rivais de IA com nova fronteira de peso aberto e modelos menores

Pontos principais
- A Mistral lança a família de peso aberto Mistral 3, incluindo um grande modelo de fronteira e nove modelos menores.
- O grande modelo usa um design de Mistura de Especialistas com 41 bilhões de parâmetros ativos e uma janela de contexto de 256.000 tokens.
- Modelos menores vêm em tamanhos de parâmetro de 14 B, 8 B e 3 B, cada um oferecido como variantes Base, Instruct e Reasoning.
- Todos os modelos podem ser executados em uma única GPU, permitindo implantação em dispositivos de borda e hardware de pré-impressão.
- A Mistral posiciona seus modelos como alternativas de baixo custo para tarefas de empresa que se beneficiam do ajuste fino.
- Parcerias abrangem robótica, cibersegurança, tecnologia de drones e assistentes de IA para automóveis.
- O lançamento de peso aberto permite que os desenvolvedores baixem, modifiquem e executem modelos sem dependência de APIs externas.
A startup de IA francesa Mistral lançou a família Mistral 3, com um grande modelo de fronteira multimodal e multilíngue e nove modelos menores totalmente personalizáveis. O lançamento destaca o acesso de peso aberto, permitindo que os desenvolvedores executem modelos em uma única GPU e os ajustem para tarefas de empresa específicas.
Visão Geral do Lançamento
A startup de IA francesa Mistral apresentou a família Mistral 3, uma suíte de modelos de peso aberto projetados para competir com sistemas de código fechado líderes. O lançamento inclui um modelo grande de fronteira, chamado Mistral Large 3, e nove modelos menores em três categorias de tamanho. Ao publicar os pesos do modelo publicamente, a Mistral permite que os desenvolvedores baixem, executem e modifiquem os modelos sem dependência de APIs externas.
Portfólio de Modelos
O grande modelo de fronteira emprega uma arquitetura granular de Mistura de Especialistas com 41 bilhões de parâmetros ativos e um total de 675 bilhões de parâmetros. Ele suporta uma janela de contexto de 256.000 tokens e combina capacidades multimodais e multilíngues, posicionando-o ao lado de outras fronteiras de peso aberto, como o Llama 3 da Meta e o Qwen3-Omni da Alibaba.
A linha menor, denominada Ministral 3, compreende nove modelos densos em três tamanhos de parâmetro - 14 bilhões, 8 bilhões e 3 bilhões. Cada tamanho é oferecido em três variantes: Base (pré-treinada), Instruct (otimizada para chat) e Reasoning (focada em lógica). Todos os modelos suportam visão, lidam com janelas de contexto entre 128.000 e 256.000 tokens e podem ser executados em uma única GPU, tornando-os adequados para dispositivos de borda, laptops e servidores de pré-impressão.
Foco Empresarial e Eficiência
A Mistral enfatiza que muitos casos de uso de empresa podem ser abordados de forma eficaz por modelos menores e ajustados, que oferecem menor custo e inferência mais rápida em comparação com alternativas de código fechado grandes. A empresa argumenta que, embora os grandes modelos possam se sair bem fora da caixa, os modelos menores personalizados podem igualar ou superar o desempenho para tarefas específicas. A capacidade de executar em uma única GPU também reduz os requisitos de hardware e elimina a dependência de tempo de atividade de API externa.
Parcerias e Aplicativos
Além do lançamento do modelo, a Mistral está expandindo sua tecnologia para domínios especializados. As colaborações incluem trabalhos com a Agência de Ciência e Tecnologia da Equipe de Casa de Singapura em modelos de robótica, cibersegurança e segurança contra incêndios; uma parceria com a startup de defesa alemã Helsing para desenvolver modelos de visão-linguagem-ação para drones; e uma aliança com o fabricante de automóveis Stellantis para criar um assistente de IA para carros. Esses esforços ilustram a intenção da Mistral de incorporar seus modelos em sistemas do mundo real que exigem confiabilidade, capacidade offline e soberania de dados.