当前位置：首页 > 科技资讯 > 正文

DeepSeek V3.2技术报告揭示开源与闭源AI模型性能差距持续扩大

主机测评网
科技资讯
2026-02-05
421

12月2日，DeepSeek发布了V3.2技术报告，其中罕见地明确指出，开源大模型与闭源模型的性能差距并未缩小，反而在持续扩大。

这一判断基于大量实测数据，反映了当前AI领域的严峻现实。

差距持续拉大：数据支撑的事实

2024年，随着DeepSeek、Qwen、GLM等开源模型相继推出，社区曾弥漫乐观情绪，“8个月时间差”的说法广泛传播，许多人相信开源正快速追赶闭源。然而，进入2025年，形势发生逆转。

DeepSeek在论文引言中直言不讳：“过去几个月出现显著分化。开源社区虽持续进步，但闭源专有模型的性能提升速度明显更快。结果，两者差距非但未缩小，反而扩大，闭源系统在复杂任务上展现出日益增强的优势。”

数据支持这一观察。论文对比了DeepSeek V3.2与GPT-5、Gemini 3.0 Pro在多项基准测试中的表现。在MMLU-Pro（多学科知识测试）中，DeepSeek V3.2得分85.0，GPT-5为87.5，Gemini 3.0 Pro高达90.1。在GPQA Diamond（研究生级别科学问题）测试中，三者得分分别为82.4、85.7和91.9。

DeepSeek V3.2技术报告揭示开源与闭源AI模型性能差距持续扩大开源大模型闭源模型性能差距 AI Agent能力第1张

更显著的差距体现在HLE（Human Last Exam，极难文本推理测试）中。DeepSeek V3.2得分25.1，GPT-5为26.3，而Gemini 3.0 Pro达到37.7——这已非“接近”所能形容。

值得注意的是，DeepSeek V3.2已是当前最强开源模型，在多数开源对比中领先。即便如此，它与顶级闭源模型之间仍存在明显差距，尤其在需要深度推理和复杂任务处理的场景中。

差距拉大根源：三个结构性缺陷

论文通过系统分析，识别出限制开源模型在复杂任务上能力的三个关键缺陷。这些是深层次结构性困境，而非表面问题。

首要问题在于架构层面。

开源模型普遍依赖传统vanilla attention机制，这种机制在处理长序列时效率低下。

论文指出，这种架构依赖“严重限制长序列效率，对可扩展部署和有效后训练构成实质性障碍”。当闭源模型已探索更高效注意力机制时，开源模型仍用五年前的技术架构，这本身形成巨大劣势。

第二问题是资源投入鸿沟，尤其在后训练阶段。

后训练是让模型从“会说话”转向“会思考”的关键环节，需通过强化学习使模型学会推理、工具使用和遵循复杂指令。论文透露，DeepSeek V3.2的后训练计算预算超过预训练成本的10%。预训练本就是天价投入，而多数开源模型的后训练预算可能不足1%。这种资源投入差距直接导致性能代际差异。

第三问题是AI Agent能力滞后。

在真实应用场景中，开源模型的泛化能力和指令理解能力明显落后。论文引用三个关键Agent测评基准：在MCP-Mark中，DeepSeek V3.2得分45.9，Gemini 3.0 Pro为51.0；在MCP-Universe中，前者80.3，后者87.9；在Tool-Decathlon中，差距更明显。这些数字反映开源模型在复杂多轮交互、工具调用、长期规划等场景下的能力不足。

论文总结：“开源模型在泛化能力和指令跟随能力方面展现出明显滞后，这阻碍了它们在实际部署中的有效性。”这是一个诚实而残酷的判断。

DeepSeek的应对：技术路线的根本性变革

认识到问题后，DeepSeek未选择简单堆砌参数或增加数据量，而是在三个核心维度进行根本性技术创新。

在架构层面，DeepSeek引入DSA（DeepSeek Sparse Attention）机制。

传统注意力机制计算复杂度为O(L²)，序列长度翻倍，计算量增四倍。DSA通过“闪电索引器”（Lightning Indexer）快速计算每个token的重要性评分，然后仅选择top-k个最重要token参与注意力计算（论文中k=2048），将复杂度从O(L²)降至O(L×k)。

这一改进不仅是理论优化。论文实测数据显示，在128K上下文长度下，DSA大幅降低推理成本，而性能几乎无损。更意外的是，在AA-LCR（长文本推理基准）和Fiction.liveBench（小说理解测试）中，V3.2表现甚至优于使用传统注意力机制的V3.1。这证明DSA不仅更快，在某些场景下质量更优。

DeepSeek V3.2技术报告揭示开源与闭源AI模型性能差距持续扩大开源大模型闭源模型性能差距 AI Agent能力第2张

在资源投入层面，DeepSeek做出超常规决定。

论文明确写道：“近几个月来，性能提升与扩展的RL训练预算持续相关，该预算已超过预训练成本的10%。”这一数字在开源界极为罕见。具体而言，DeepSeek为数学、编程、推理、Agent等六大领域分别训练专家模型，每个都单独进行大规模强化学习训练。在持续预训练阶段，模型经历943.7B tokens训练（在128K上下文长度下），然后采用GRPO（Group Relative Policy Optimization）算法进行混合训练，整合推理、Agent和人类对齐三类任务。

在Agent能力强化方面，DeepSeek开发系统化任务合成流程。

他们合成超过1800个多样化环境和85,000条复杂提示，涵盖各种真实场景。具体包括24,667个代码Agent任务、50,275个搜索Agent任务、4,417个通用Agent任务和5,908个代码解释器任务。这些合成数据非随机生成，而是通过冷启动阶段学习推理与工具使用的统一模式，然后在规模化阶段系统生成高质量训练场景。

效果显著。在Agent相关测试中，DeepSeek V3.2显著缩小与闭源模型差距，在MCP-Universe上达到80.3%成功率，虽仍低于Gemini的87.9%，但已是开源模型最佳表现。论文总结：“DeepSeek V3.2成为Agent场景中极具成本效益的选择，显著缩小开源与前沿闭源模型之间的性能差距。”

论文最后写道：“如果Gemini 3.0证明了持续扩展预训练的潜力，DeepSeek V3.2-Speciale则证明了在大规模上下文环境中强化学习的可扩展性。”言下之意明显：闭源巨头有资源堆预训练，但开源可找到自己的路——通过更高效架构和更科学后训练，以更少资源实现接近效果。

这或许是开源AI唯一生存之道：不硬碰硬拼资源，而拼技术路线创新。至少在此次，DeepSeek证明这条路可行。

论文链接：https://arxiv.org/html/2512.02556v1#S5

整理：周华香