当前位置:首页 > 科技资讯 > 正文

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头

一个令人担忧的趋势是,开源模型与闭源模型之间的性能差距正在日益扩大。

然而,DeepSeek再次带来了振奋人心的消息。

12月1日,DeepSeek正式发布了两款全新模型——DeepSeek V3.2与DeepSeek-V3.2-Speciale。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第1张

标准版与GPT-5交锋时表现相当,而高性能版本则直接超越了GPT,开始与闭源模型的巅峰——Gemini系列平分秋色。

该模型还在IMO 2025(国际数学奥林匹克竞赛)、CMO 2025(中国数学奥林匹克竞赛)等多项顶级赛事中荣获金牌。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第2张

这是该公司今年第九次推出新模型,尽管众人期待的R2仍未现身。

那么,DeepSeek是如何以更少的数据和算力资源,打造出能与国际巨头抗衡的模型呢?

我们深入研读了其技术论文,试图揭示其中的奥秘。

为实现这一目标,DeepSeek引入了多项创新技术:

首先,正式采用了先前试验过的DSA——稀疏注意力机制。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第3张

该技术在早期的V3.2-EXP版本中已有测试,当时仅用于评估DSA对模型性能的潜在影响,如今已正式集成到核心架构中。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第4张

用户在与大模型交互时常发现,对话历史越长,模型越容易产生不合理输出。

甚至当对话长度超过一定限制时,系统会直接中断会话。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第5张

这一问题的根源在于传统注意力机制:每个新生成的token都需要与之前所有token进行全连接计算。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第6张

这导致序列长度增加一倍,计算量便增至四倍;若长度增至三倍,计算量则膨胀为九倍,效率瓶颈显著。

DeepSeek认为必须改进这一机制,因此为大模型引入了类似目录的稀疏注意力结构,相当于为模型提供了重点标注功能。

在目录机制的辅助下,模型只需计算token与目录关键点的关联度,类比于阅读时先浏览目录,再针对兴趣章节深入研读。

此举显著提升了大模型处理长文本的能力。

如下图所示,随着序列长度增长,传统V3.1的推理成本急剧上升。

而采用稀疏注意力的V3.2则保持了相对稳定的计算开销。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第7张

这堪称效率优化的典范。

另一方面,DeepSeek高度重视开源模型的后训练阶段。

大模型的训练流程类似人类教育体系:预训练如同从小学到高中基础阶段,全面学习各类知识。

无论是闭源还是开源模型,在此阶段都遵循相似路径。

但进入后训练阶段——相当于高考冲刺期——闭源模型通常会投入大量资源进行强化学习,聘请“名师”指导,通过密集训练提升成绩。

而开源模型在此环节往往投入不足。据DeepSeek分析,以往开源模型在后训练阶段的算力分配普遍偏低。

这导致模型虽具备基础能力,却因缺乏高强度难题训练,最终评估表现不佳。

为此,DeepSeek决定实施“名师辅导”计划,设计了一套创新的强化学习协议,在预训练结束后投入超过总训练算力10%的资源进行专项优化,弥补了这一短板。

同时推出了支持超长思考的特殊版本——DeepSeek V3.2 Speciale

其设计理念在于:传统大模型因上下文长度限制,在训练时会对过长思考施加惩罚。

而DeepSeek V3.2 Speciale直接移除了这一惩罚机制,转而鼓励模型进行任意时长与方式的深度思考。

最终,这一全新模型得以与近期备受关注的Gemini 3展开势均力较的竞争。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第8张

此外,DeepSeek持续强化模型在智能体方面的能力。

为提升基础性能,DeepSeek构建了虚拟环境,通过合成海量数据辅助训练。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第9张

DeepSeek-V3.2使用了24667个真实代码环境任务、50275个真实搜索任务、4417个合成通用智能体场景以及5908个真实代码解释任务进行后训练。

同时,DeepSeek优化了模型使用工具的流程。

早期版本的一个典型问题是:模型将思考过程与工具调用割裂。

一旦调用外部工具,之前的思考链便告终止,待工具返回结果后,模型往往需要重新构建推理逻辑。

这导致即使是查询“今日日期”这类简单操作,模型也会重复完整的推理步骤,效率低下。

在V3.2中,DeepSeek重构了该逻辑。

新规则规定:在整个工具调用序列中,模型的“思考状态”将持续保留,仅当用户发起新查询时才会重置推理;工具调用记录与结果将作为上下文的一部分永久保存。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第10张

通过架构革新、后训练强化与智能体能力提升这三项关键举措,DeepSeek使新模型具备了与国际顶尖开源模型一较高下的实力。

当然,即便取得这些进展,DeepSeek的表现仍非完美。

但最令人欣赏的是,DeepSeek勇于直面自身不足。

并在论文中坦诚记录。

例如论文指出,DeepSeek V3.2 Speciale虽能与谷歌Gemini 3 Pro平分秋色。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第11张

但回答相同问题时,DeepSeek需要消耗更多token。

我们进行了实际测试:从“人类终极测试”题库中随机选题,同时提交给Gemini 3 Pro与DeepSeek V3.2 Speciale。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第12张

题目如下:

蜂鸟类在足形目中独特地拥有双侧成对的椭圆形骨,这是一种嵌入在膨胀的十字翼腱膜的尾状骨中,嵌入压低多粒骨的尾状骨。这块籽骨支撑着多少对对腱?请用数字回答。

结果显示,Gemini仅用4972个Tokens便给出答案。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第13张

而DeepSeek则耗费8077个Tokens才完成解答。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第14张

仅从消耗量看,DeepSeek的Tokens用量高出近60%,差距确实存在。

然而,另一个关键因素不容忽视。

DeepSeek虽消耗更多token,但其成本极具竞争力。

回顾该次查询的计费详情。

DeepSeek的8000余个tokens仅花费0.0032美元。

而谷歌方面,不足5000个tokens却消耗0.06美元?成本高达DeepSeek的20倍。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第15张

从这个角度看,DeepSeek显然提供了更高的性价比。

最后,回归论文的起始观点。

正如DeepSeek所述,近半年来开源与闭源模型的差距持续扩大。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第16张

但他们正以独特方式不断追赶。

DeepSeek在算力与数据效率方面的创新,令人联想到上月Ilya Sutskever的一次访谈。

DeepSeek V3.2发布:开源AI模型的新突破,挑战闭源巨头 V3.2 稀疏注意力 后训练优化 开源模型竞争 第17张

这位OpenAI前核心人物认为,单纯堆叠参数并非未来方向。

AlexNet仅用两块GPU。Transformer诞生初期的实验规模多在8至64块GPU之间。以当今标准衡量,那仅相当于几块GPU的规模,ResNet亦然。没有任何突破性论文完全依赖庞大计算集群完成。

相较于算力堆砌,算法研究同等重要。

这正是DeepSeek践行之路。

从V2的混合专家系统(MoE),到V3的多头潜在注意力(MLA),再到DeepSeek Math V2的自验证机制与V3.2的稀疏注意力(DSA)。

DeepSeek展现的进步,从来不是单纯通过参数扩张实现。

而是持续探索如何以有限数据,凝聚更多智能。

可谓“巧妇善为无米之炊”。

那么,众人期待的R2何时到来呢?