12月2日,DeepSeek发布了V3.2技术报告,其中罕见地明确指出,开源大模型与闭源模型的性能差距并未缩小,反而在持续扩大。
这一判断基于大量实测数据,反映了当前AI领域的严峻现实。
2024年,随着DeepSeek、Qwen、GLM等开源模型相继推出,社区曾弥漫乐观情绪,“8个月时间差”的说法广泛传播,许多人相信开源正快速追赶闭源。然而,进入2025年,形势发生逆转。
DeepSeek在论文引言中直言不讳:“过去几个月出现显著分化。开源社区虽持续进步,但闭源专有模型的性能提升速度明显更快。结果,两者差距非但未缩小,反而扩大,闭源系统在复杂任务上展现出日益增强的优势。”
数据支持这一观察。论文对比了DeepSeek V3.2与GPT-5、Gemini 3.0 Pro在多项基准测试中的表现。在MMLU-Pro(多学科知识测试)中,DeepSeek V3.2得分85.0,GPT-5为87.5,Gemini 3.0 Pro高达90.1。在GPQA Diamond(研究生级别科学问题)测试中,三者得分分别为82.4、85.7和91.9。
更显著的差距体现在HLE(Human Last Exam,极难文本推理测试)中。DeepSeek V3.2得分25.1,GPT-5为26.3,而Gemini 3.0 Pro达到37.7——这已非“接近”所能形容。
值得注意的是,DeepSeek V3.2已是当前最强开源模型,在多数开源对比中领先。即便如此,它与顶级闭源模型之间仍存在明显差距,尤其在需要深度推理和复杂任务处理的场景中。
论文通过系统分析,识别出限制开源模型在复杂任务上能力的三个关键缺陷。这些是深层次结构性困境,而非表面问题。
首要问题在于架构层面。
开源模型普遍依赖传统vanilla attention机制,这种机制在处理长序列时效率低下。
论文指出,这种架构依赖“严重限制长序列效率,对可扩展部署和有效后训练构成实质性障碍”。当闭源模型已探索更高效注意力机制时,开源模型仍用五年前的技术架构,这本身形成巨大劣势。
第二问题是资源投入鸿沟,尤其在后训练阶段。
后训练是让模型从“会说话”转向“会思考”的关键环节,需通过强化学习使模型学会推理、工具使用和遵循复杂指令。论文透露,DeepSeek V3.2的后训练计算预算超过预训练成本的10%。预训练本就是天价投入,而多数开源模型的后训练预算可能不足1%。这种资源投入差距直接导致性能代际差异。
第三问题是AI Agent能力滞后。
在真实应用场景中,开源模型的泛化能力和指令理解能力明显落后。论文引用三个关键Agent测评基准:在MCP-Mark中,DeepSeek V3.2得分45.9,Gemini 3.0 Pro为51.0;在MCP-Universe中,前者80.3,后者87.9;在Tool-Decathlon中,差距更明显。这些数字反映开源模型在复杂多轮交互、工具调用、长期规划等场景下的能力不足。
论文总结:“开源模型在泛化能力和指令跟随能力方面展现出明显滞后,这阻碍了它们在实际部署中的有效性。”这是一个诚实而残酷的判断。
认识到问题后,DeepSeek未选择简单堆砌参数或增加数据量,而是在三个核心维度进行根本性技术创新。
在架构层面,DeepSeek引入DSA(DeepSeek Sparse Attention)机制。
传统注意力机制计算复杂度为O(L²),序列长度翻倍,计算量增四倍。DSA通过“闪电索引器”(Lightning Indexer)快速计算每个token的重要性评分,然后仅选择top-k个最重要token参与注意力计算(论文中k=2048),将复杂度从O(L²)降至O(L×k)。
这一改进不仅是理论优化。论文实测数据显示,在128K上下文长度下,DSA大幅降低推理成本,而性能几乎无损。更意外的是,在AA-LCR(长文本推理基准)和Fiction.liveBench(小说理解测试)中,V3.2表现甚至优于使用传统注意力机制的V3.1。这证明DSA不仅更快,在某些场景下质量更优。
在资源投入层面,DeepSeek做出超常规决定。
论文明确写道:“近几个月来,性能提升与扩展的RL训练预算持续相关,该预算已超过预训练成本的10%。”这一数字在开源界极为罕见。具体而言,DeepSeek为数学、编程、推理、Agent等六大领域分别训练专家模型,每个都单独进行大规模强化学习训练。在持续预训练阶段,模型经历943.7B tokens训练(在128K上下文长度下),然后采用GRPO(Group Relative Policy Optimization)算法进行混合训练,整合推理、Agent和人类对齐三类任务。
在Agent能力强化方面,DeepSeek开发系统化任务合成流程。
他们合成超过1800个多样化环境和85,000条复杂提示,涵盖各种真实场景。具体包括24,667个代码Agent任务、50,275个搜索Agent任务、4,417个通用Agent任务和5,908个代码解释器任务。这些合成数据非随机生成,而是通过冷启动阶段学习推理与工具使用的统一模式,然后在规模化阶段系统生成高质量训练场景。
效果显著。在Agent相关测试中,DeepSeek V3.2显著缩小与闭源模型差距,在MCP-Universe上达到80.3%成功率,虽仍低于Gemini的87.9%,但已是开源模型最佳表现。论文总结:“DeepSeek V3.2成为Agent场景中极具成本效益的选择,显著缩小开源与前沿闭源模型之间的性能差距。”
论文最后写道:“如果Gemini 3.0证明了持续扩展预训练的潜力,DeepSeek V3.2-Speciale则证明了在大规模上下文环境中强化学习的可扩展性。”言下之意明显:闭源巨头有资源堆预训练,但开源可找到自己的路——通过更高效架构和更科学后训练,以更少资源实现接近效果。
这或许是开源AI唯一生存之道:不硬碰硬拼资源,而拼技术路线创新。至少在此次,DeepSeek证明这条路可行。
论文链接:https://arxiv.org/html/2512.02556v1#S5
整理:周华香
本文由主机测评网于2026-02-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260222992.html