昨日,被业界称为「欧洲版DeepSeek」的Mistral AI公司一举揭晓了两项重大发布:
一款采用MoE架构的大语言模型——Mistral Large 3;
一系列小尺寸模型——Ministral 3(包括14B、8B和3B参数版本)。
这些模型全部开放源代码,全面集成多模态能力,并已为实际部署做好了准备。
此次Mistral推出的Mistral Large 3,从规格上看几乎触及了「开源模型的准天花板」:它采用了41B激活参数/675B总参数的MoE架构,原生支持图像理解,上下文窗口高达256k,在多语言处理能力上(尤其是非英语、非中文语种)表现尤为突出,在LMArena榜单上直接杀入开源模型第6位。
Mistral Large 3的ELO得分在开源大模型中稳居第一梯队,与Kimi K2打成平手,仅落后DeepSeek v3.2一小截。
它的基础模型表现同样不俗,在多个核心任务上与DeepSeek、Kimi这类体量更大的模型正面交锋,毫不逊色。
Mistral Large 3(Base)在MMLU、GPOA、SimpleQA、AMC、LiveCodeBench等多项基础任务上与DeepSeek 37B、Kimi K2 127B保持同一水平,属于开源系的第一梯队基础模型。
再看预训练能力,它与Qwen、Gemma的基础模型在核心评测上也是正面硬刚:
Mistral Large 3在多个核心基准上与DeepSeek、Qwen正面对比。
但官方却没有把重点放在数值上,反而强调:
我们开源采用Apache 2.0许可,完全授权给你;你想怎么修改、怎么部署都行。
为了实现这一点,他们与NVIDIA合作完成了一项简单却至关重要的工程:为了让Large 3运行得更稳定,Mistral联合NVIDIA将底层推理链路重新设计了一遍:采用NVIDIA的FP4精度,并重写了Blackwell架构的注意力与MoE内核,使得Large 3在Blackwell NVL72上既快、又稳、又经济。
这不是简单的适配,而是将Blackwell的注意力机制、MoE内核、预填充/解码分离和投机解码等关键推理路径进行了深度重构。
真正让Mistral引以为傲的,是Ministral 3系列。它们体积小巧,但性能强劲。3B、8B、14B三种尺寸,全部提供base、instruct、reasoning三个版本,全部支持图像理解,全部在官方基准测试中表现优异。这意味着:你的笔记本能跑,你的台式机能跑,无人机、机器人、汽车、边缘摄像头都能跑,甚至脱离互联网也能运行。
更关键的是,这些模型不只是「小」,而是「更聪明」。Ministral 3的instruct版本在综合智能指数上的得分分别为31(14B)/ 28(8B)/ 22(3B)——全部超越上一代Mistral Small 3.2,尽管后者参数多了40%。也就是说,这一代小模型不仅价格更低、能运行在更多设备上,其内在能力也从底层被大幅拉升。
Large 3相比上一代Large 2提升了11分,达到38分。但即便如此,它仍未进入GPT-5、Gemini 3、Claude Opus那种顶级专有模型所在的第一梯队。Artificial Analysis的综合榜单里,前排依旧被GPT-5、Gemini 3、Opus系列占据;DeepSeek和Qwen也在持续贴近第一梯队,Mistral Large 3则恰好卡在两者之间。
这是一次可见的进步,但它的定位从来都不是「跑分之王」。但这并不影响它的工程价值。Large 3采用稀疏MoE架构,本身就很吃算力。所以这次Mistral直接与NVIDIA深度绑定,将Blackwell系列最新的注意力机制、MoE加速内核都整合进来。
最有意思的是,他们一起将「预填充/解码分离」和「投机解码」也做到了底层,让长文本、高并发这类企业级场景运行起来更稳、更快。
更关键的是,Ministral 3系列不仅体积小,它们已经被官方优化到能直接跑在各种真实设备上:DGX Spark、RTX PC、普通笔记本,甚至是Jetson这类嵌入式板子。从数据中心到机器人,从工厂到无人机,只要有块GPU,就能跑Mistral的小模型。
Mistral Large 3(Instruct)在真实任务评估中对比DeepSeek V3.1 / Kimi K2的胜率。
再看reasoning版,AIME"25(数学推理)在14B下能做到85%。
Ministral 14B的基础模型实力远超同量级对手,在数学、知识问答、多语言任务中几乎全面领先Gemma 13B和Qwen 1.8B。
Ministral 14B(Reasoning)在AIME"25、LiveCodeBench、GPOA Diamond、HMMT等推理任务上全面领先Qwen 14B「Thinking」,数学和代码推理几乎是同量级中的天花板。
Ministral 14B(Instruction)在WildBench、Arena Hard、数学推理和多模态任务上全面领先Gemma 13B与Qwen 1.8B,指令调优后的综合能力几乎碾压同量级模型。这在小模型推理中,几乎是突破天花板的表现。
Mistral首席科学家Guillaume Lample一语点破:
超过90%的企业任务,用微调过的小模型就足够了。
这相当于对OpenAI的直接挑衅。OpenAI的最强模型需要昂贵的显卡,每个token都在烧钱;Google、Anthropic的Agentic模型配置更高。但企业真正需要的是:能用、可控、便宜、可靠。Ministral 3正是在针对这一痛点。
Lample在一次采访中提到这样一个有趣的现象:
很多公司用最强闭源模型做原型,结果上线时发现成本太贵、延迟太高,只能退回来找我们。
闭源头部模型有天然的缺陷:出了问题企业无法修复,企业数据必须上传云端,成本高的吓人……Mistral直击要害:模型不够好?我们下场帮你造数据、帮你调模型。他们直接派工程师进驻客户公司,将模型变成按需定制的「企业专属AI」。用一个14B模型,就能干掉别人70B、400B的大模型,在企业场景里完全可能。
在真实人工评估中,Mistral Large 3在通用任务和多语言任务里对DeepSeek V3.1、Kimi K2取得53%–60%的胜率。
把视线从模型本身移开,就会发现Mistral不仅仅是卖模型。它在悄悄将自己打造成一种平台型存在,而那套结构现在已经清晰到让人无法忽视。Mistral Agents API,不仅能跑模型,还能直接在API内部接Code Interpreter、执行代码、接连工具、保持长期记忆、做结构化推理。
Magistral,专门为「复杂推理、透明推理、多语言推理」训练的模型系列。还有突然爆火的AI Studio,官方称其能「部署在任何地方」。
由此可见,Mistral在走一种不同寻常的AI路线。它不像美国那套「云端神谕」,更像是欧洲式的「软件制造业」哲学:把能力做成标准件,让所有人随取随用。
Mistral 3的发布,让全球AI版图出现了一个新的裂缝。一边是不断做大的「云端巨兽」,另一边是开始渗透到笔记本、无人机、工厂、公共机构里的「小而强AI」。AI的未来到底属于几家巨头,还是属于每个人的设备、每个国家的生态?这场争夺从今天才正式开盘。
参考资料:
https://mistral.ai/news/mistral-3
https://venturebeat.com/ai/mistral-launches-mistral-3-a-family-of-open-models-designed-to-run-on
https://x.com/MistralAI/status/1995872768601325836 https://x.com/ArtificialAnlys/status/1995946145236001168
本文由主机测评网于2026-02-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260227289.html