当前位置：首页 > 科技资讯 > 正文

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头

主机测评网
科技资讯
2026-01-31
177

一个令人担忧的趋势是，开源模型与闭源模型之间的性能差距正在日益扩大。

然而，DeepSeek再次带来了振奋人心的消息。

12月1日，DeepSeek正式发布了两款全新模型——DeepSeek V3.2与DeepSeek-V3.2-Speciale。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第1张

标准版与GPT-5交锋时表现相当，而高性能版本则直接超越了GPT，开始与闭源模型的巅峰——Gemini系列平分秋色。

该模型还在IMO 2025（国际数学奥林匹克竞赛）、CMO 2025（中国数学奥林匹克竞赛）等多项顶级赛事中荣获金牌。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第2张

这是该公司今年第九次推出新模型，尽管众人期待的R2仍未现身。

那么，DeepSeek是如何以更少的数据和算力资源，打造出能与国际巨头抗衡的模型呢？

我们深入研读了其技术论文，试图揭示其中的奥秘。

为实现这一目标，DeepSeek引入了多项创新技术：

首先，正式采用了先前试验过的DSA——稀疏注意力机制。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第3张

该技术在早期的V3.2-EXP版本中已有测试，当时仅用于评估DSA对模型性能的潜在影响，如今已正式集成到核心架构中。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第4张

用户在与大模型交互时常发现，对话历史越长，模型越容易产生不合理输出。

甚至当对话长度超过一定限制时，系统会直接中断会话。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第5张

这一问题的根源在于传统注意力机制：每个新生成的token都需要与之前所有token进行全连接计算。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第6张

这导致序列长度增加一倍，计算量便增至四倍；若长度增至三倍，计算量则膨胀为九倍，效率瓶颈显著。

DeepSeek认为必须改进这一机制，因此为大模型引入了类似目录的稀疏注意力结构，相当于为模型提供了重点标注功能。

在目录机制的辅助下，模型只需计算token与目录关键点的关联度，类比于阅读时先浏览目录，再针对兴趣章节深入研读。

此举显著提升了大模型处理长文本的能力。

如下图所示，随着序列长度增长，传统V3.1的推理成本急剧上升。

而采用稀疏注意力的V3.2则保持了相对稳定的计算开销。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第7张

这堪称效率优化的典范。

另一方面，DeepSeek高度重视开源模型的后训练阶段。

大模型的训练流程类似人类教育体系：预训练如同从小学到高中基础阶段，全面学习各类知识。

无论是闭源还是开源模型，在此阶段都遵循相似路径。

但进入后训练阶段——相当于高考冲刺期——闭源模型通常会投入大量资源进行强化学习，聘请“名师”指导，通过密集训练提升成绩。

而开源模型在此环节往往投入不足。据DeepSeek分析，以往开源模型在后训练阶段的算力分配普遍偏低。

这导致模型虽具备基础能力，却因缺乏高强度难题训练，最终评估表现不佳。

为此，DeepSeek决定实施“名师辅导”计划，设计了一套创新的强化学习协议，在预训练结束后投入超过总训练算力10%的资源进行专项优化，弥补了这一短板。

同时推出了支持超长思考的特殊版本——DeepSeek V3.2 Speciale。

其设计理念在于：传统大模型因上下文长度限制，在训练时会对过长思考施加惩罚。

而DeepSeek V3.2 Speciale直接移除了这一惩罚机制，转而鼓励模型进行任意时长与方式的深度思考。

最终，这一全新模型得以与近期备受关注的Gemini 3展开势均力较的竞争。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第8张

此外，DeepSeek持续强化模型在智能体方面的能力。

为提升基础性能，DeepSeek构建了虚拟环境，通过合成海量数据辅助训练。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第9张

DeepSeek-V3.2使用了24667个真实代码环境任务、50275个真实搜索任务、4417个合成通用智能体场景以及5908个真实代码解释任务进行后训练。

同时，DeepSeek优化了模型使用工具的流程。

早期版本的一个典型问题是：模型将思考过程与工具调用割裂。

一旦调用外部工具，之前的思考链便告终止，待工具返回结果后，模型往往需要重新构建推理逻辑。

这导致即使是查询“今日日期”这类简单操作，模型也会重复完整的推理步骤，效率低下。

在V3.2中，DeepSeek重构了该逻辑。

新规则规定：在整个工具调用序列中，模型的“思考状态”将持续保留，仅当用户发起新查询时才会重置推理；工具调用记录与结果将作为上下文的一部分永久保存。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第10张

通过架构革新、后训练强化与智能体能力提升这三项关键举措，DeepSeek使新模型具备了与国际顶尖开源模型一较高下的实力。

当然，即便取得这些进展，DeepSeek的表现仍非完美。

但最令人欣赏的是，DeepSeek勇于直面自身不足。

并在论文中坦诚记录。

例如论文指出，DeepSeek V3.2 Speciale虽能与谷歌Gemini 3 Pro平分秋色。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第11张

但回答相同问题时，DeepSeek需要消耗更多token。

我们进行了实际测试：从“人类终极测试”题库中随机选题，同时提交给Gemini 3 Pro与DeepSeek V3.2 Speciale。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第12张

题目如下：

蜂鸟类在足形目中独特地拥有双侧成对的椭圆形骨，这是一种嵌入在膨胀的十字翼腱膜的尾状骨中，嵌入压低多粒骨的尾状骨。这块籽骨支撑着多少对对腱？请用数字回答。

结果显示，Gemini仅用4972个Tokens便给出答案。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第13张

而DeepSeek则耗费8077个Tokens才完成解答。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第14张

仅从消耗量看，DeepSeek的Tokens用量高出近60%，差距确实存在。

然而，另一个关键因素不容忽视。

DeepSeek虽消耗更多token，但其成本极具竞争力。

回顾该次查询的计费详情。

DeepSeek的8000余个tokens仅花费0.0032美元。

而谷歌方面，不足5000个tokens却消耗0.06美元？成本高达DeepSeek的20倍。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第15张

从这个角度看，DeepSeek显然提供了更高的性价比。

最后，回归论文的起始观点。

正如DeepSeek所述，近半年来开源与闭源模型的差距持续扩大。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第16张

但他们正以独特方式不断追赶。

DeepSeek在算力与数据效率方面的创新，令人联想到上月Ilya Sutskever的一次访谈。

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头 V3.2 稀疏注意力后训练优化开源模型竞争第17张

这位OpenAI前核心人物认为，单纯堆叠参数并非未来方向。

AlexNet仅用两块GPU。Transformer诞生初期的实验规模多在8至64块GPU之间。以当今标准衡量，那仅相当于几块GPU的规模，ResNet亦然。没有任何突破性论文完全依赖庞大计算集群完成。

相较于算力堆砌，算法研究同等重要。

这正是DeepSeek践行之路。

从V2的混合专家系统（MoE），到V3的多头潜在注意力（MLA），再到DeepSeek Math V2的自验证机制与V3.2的稀疏注意力（DSA）。

DeepSeek展现的进步，从来不是单纯通过参数扩张实现。

而是持续探索如何以有限数据，凝聚更多智能。

可谓“巧妇善为无米之炊”。

那么，众人期待的R2何时到来呢？

免费vps 云服务器阿里云服务器

本文由主机测评网于2026-01-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260122128.html

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头

Windows系统安装鸿蒙模拟器完整指南（HarmonyOS开发环境搭建教程）

2024全网最详细RHCSA认证教程（初级及进阶Linux保姆级骚操作，学不废来坎我）

DeepSeek V3.2发布：开源AI模型的新突破，挑战闭源巨头

Windows系统安装鸿蒙模拟器完整指南（HarmonyOS开发环境搭建教程）

2024全网最详细RHCSA认证教程（初级及进阶Linux保姆级骚操作，学不废来坎我）

相关文章