当前位置：首页 > 科技资讯 > 正文

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相

主机测评网
科技资讯
2026-02-26
364

昨日，被业界称为「欧洲版DeepSeek」的Mistral AI公司一举揭晓了两项重大发布：

一款采用MoE架构的大语言模型——Mistral Large 3；

一系列小尺寸模型——Ministral 3（包括14B、8B和3B参数版本）。

这些模型全部开放源代码，全面集成多模态能力，并已为实际部署做好了准备。

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相 3 开源AI模型多模态大模型边缘AI 第1张

Mistral Large 3：性能与开放性的新标杆

此次Mistral推出的Mistral Large 3，从规格上看几乎触及了「开源模型的准天花板」：它采用了41B激活参数/675B总参数的MoE架构，原生支持图像理解，上下文窗口高达256k，在多语言处理能力上（尤其是非英语、非中文语种）表现尤为突出，在LMArena榜单上直接杀入开源模型第6位。

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相 3 开源AI模型多模态大模型边缘AI 第2张

Mistral Large 3的ELO得分在开源大模型中稳居第一梯队，与Kimi K2打成平手，仅落后DeepSeek v3.2一小截。

它的基础模型表现同样不俗，在多个核心任务上与DeepSeek、Kimi这类体量更大的模型正面交锋，毫不逊色。

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相 3 开源AI模型多模态大模型边缘AI 第3张

Mistral Large 3（Base）在MMLU、GPOA、SimpleQA、AMC、LiveCodeBench等多项基础任务上与DeepSeek 37B、Kimi K2 127B保持同一水平，属于开源系的第一梯队基础模型。

再看预训练能力，它与Qwen、Gemma的基础模型在核心评测上也是正面硬刚：

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相 3 开源AI模型多模态大模型边缘AI 第4张

Mistral Large 3在多个核心基准上与DeepSeek、Qwen正面对比。

但官方却没有把重点放在数值上，反而强调：

我们开源采用Apache 2.0许可，完全授权给你；你想怎么修改、怎么部署都行。

为了实现这一点，他们与NVIDIA合作完成了一项简单却至关重要的工程：为了让Large 3运行得更稳定，Mistral联合NVIDIA将底层推理链路重新设计了一遍：采用NVIDIA的FP4精度，并重写了Blackwell架构的注意力与MoE内核，使得Large 3在Blackwell NVL72上既快、又稳、又经济。

这不是简单的适配，而是将Blackwell的注意力机制、MoE内核、预填充/解码分离和投机解码等关键推理路径进行了深度重构。

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相 3 开源AI模型多模态大模型边缘AI 第5张

Ministral 3系列：小巧而强大

真正让Mistral引以为傲的，是Ministral 3系列。它们体积小巧，但性能强劲。3B、8B、14B三种尺寸，全部提供base、instruct、reasoning三个版本，全部支持图像理解，全部在官方基准测试中表现优异。这意味着：你的笔记本能跑，你的台式机能跑，无人机、机器人、汽车、边缘摄像头都能跑，甚至脱离互联网也能运行。

更关键的是，这些模型不只是「小」，而是「更聪明」。Ministral 3的instruct版本在综合智能指数上的得分分别为31（14B）/ 28（8B）/ 22（3B）——全部超越上一代Mistral Small 3.2，尽管后者参数多了40%。也就是说，这一代小模型不仅价格更低、能运行在更多设备上，其内在能力也从底层被大幅拉升。

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相 3 开源AI模型多模态大模型边缘AI 第6张

Large 3相比上一代Large 2提升了11分，达到38分。但即便如此，它仍未进入GPT-5、Gemini 3、Claude Opus那种顶级专有模型所在的第一梯队。Artificial Analysis的综合榜单里，前排依旧被GPT-5、Gemini 3、Opus系列占据；DeepSeek和Qwen也在持续贴近第一梯队，Mistral Large 3则恰好卡在两者之间。

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相 3 开源AI模型多模态大模型边缘AI 第7张

这是一次可见的进步，但它的定位从来都不是「跑分之王」。但这并不影响它的工程价值。Large 3采用稀疏MoE架构，本身就很吃算力。所以这次Mistral直接与NVIDIA深度绑定，将Blackwell系列最新的注意力机制、MoE加速内核都整合进来。

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相 3 开源AI模型多模态大模型边缘AI 第8张

最有意思的是，他们一起将「预填充/解码分离」和「投机解码」也做到了底层，让长文本、高并发这类企业级场景运行起来更稳、更快。

更关键的是，Ministral 3系列不仅体积小，它们已经被官方优化到能直接跑在各种真实设备上：DGX Spark、RTX PC、普通笔记本，甚至是Jetson这类嵌入式板子。从数据中心到机器人，从工厂到无人机，只要有块GPU，就能跑Mistral的小模型。

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相 3 开源AI模型多模态大模型边缘AI 第9张

Mistral Large 3（Instruct）在真实任务评估中对比DeepSeek V3.1 / Kimi K2的胜率。

再看reasoning版，AIME"25（数学推理）在14B下能做到85%。

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相 3 开源AI模型多模态大模型边缘AI 第10张

Ministral 14B的基础模型实力远超同量级对手，在数学、知识问答、多语言任务中几乎全面领先Gemma 13B和Qwen 1.8B。

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相 3 开源AI模型多模态大模型边缘AI 第11张

Ministral 14B（Reasoning）在AIME"25、LiveCodeBench、GPOA Diamond、HMMT等推理任务上全面领先Qwen 14B「Thinking」，数学和代码推理几乎是同量级中的天花板。

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相 3 开源AI模型多模态大模型边缘AI 第12张

Ministral 14B（Instruction）在WildBench、Arena Hard、数学推理和多模态任务上全面领先Gemma 13B与Qwen 1.8B，指令调优后的综合能力几乎碾压同量级模型。这在小模型推理中，几乎是突破天花板的表现。

Mistral首席科学家Guillaume Lample一语点破：

超过90%的企业任务，用微调过的小模型就足够了。

这相当于对OpenAI的直接挑衅。OpenAI的最强模型需要昂贵的显卡，每个token都在烧钱；Google、Anthropic的Agentic模型配置更高。但企业真正需要的是：能用、可控、便宜、可靠。Ministral 3正是在针对这一痛点。

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相 3 开源AI模型多模态大模型边缘AI 第13张

Lample在一次采访中提到这样一个有趣的现象：

很多公司用最强闭源模型做原型，结果上线时发现成本太贵、延迟太高，只能退回来找我们。

闭源头部模型有天然的缺陷：出了问题企业无法修复，企业数据必须上传云端，成本高的吓人……Mistral直击要害：模型不够好？我们下场帮你造数据、帮你调模型。他们直接派工程师进驻客户公司，将模型变成按需定制的「企业专属AI」。用一个14B模型，就能干掉别人70B、400B的大模型，在企业场景里完全可能。

Mistral 3系列重磅发布：开源MoE大模型与高效小模型齐亮相 3 开源AI模型多模态大模型边缘AI 第14张