一个令人担忧的趋势是,开源模型与闭源模型之间的性能差距正在日益扩大。
然而,DeepSeek再次带来了振奋人心的消息。
12月1日,DeepSeek正式发布了两款全新模型——DeepSeek V3.2与DeepSeek-V3.2-Speciale。
标准版与GPT-5交锋时表现相当,而高性能版本则直接超越了GPT,开始与闭源模型的巅峰——Gemini系列平分秋色。
该模型还在IMO 2025(国际数学奥林匹克竞赛)、CMO 2025(中国数学奥林匹克竞赛)等多项顶级赛事中荣获金牌。
这是该公司今年第九次推出新模型,尽管众人期待的R2仍未现身。
那么,DeepSeek是如何以更少的数据和算力资源,打造出能与国际巨头抗衡的模型呢?
我们深入研读了其技术论文,试图揭示其中的奥秘。
为实现这一目标,DeepSeek引入了多项创新技术:
首先,正式采用了先前试验过的DSA——稀疏注意力机制。
该技术在早期的V3.2-EXP版本中已有测试,当时仅用于评估DSA对模型性能的潜在影响,如今已正式集成到核心架构中。
用户在与大模型交互时常发现,对话历史越长,模型越容易产生不合理输出。
甚至当对话长度超过一定限制时,系统会直接中断会话。
这一问题的根源在于传统注意力机制:每个新生成的token都需要与之前所有token进行全连接计算。
这导致序列长度增加一倍,计算量便增至四倍;若长度增至三倍,计算量则膨胀为九倍,效率瓶颈显著。
DeepSeek认为必须改进这一机制,因此为大模型引入了类似目录的稀疏注意力结构,相当于为模型提供了重点标注功能。
在目录机制的辅助下,模型只需计算token与目录关键点的关联度,类比于阅读时先浏览目录,再针对兴趣章节深入研读。
此举显著提升了大模型处理长文本的能力。
如下图所示,随着序列长度增长,传统V3.1的推理成本急剧上升。
而采用稀疏注意力的V3.2则保持了相对稳定的计算开销。
这堪称效率优化的典范。
另一方面,DeepSeek高度重视开源模型的后训练阶段。
大模型的训练流程类似人类教育体系:预训练如同从小学到高中基础阶段,全面学习各类知识。
无论是闭源还是开源模型,在此阶段都遵循相似路径。
但进入后训练阶段——相当于高考冲刺期——闭源模型通常会投入大量资源进行强化学习,聘请“名师”指导,通过密集训练提升成绩。
而开源模型在此环节往往投入不足。据DeepSeek分析,以往开源模型在后训练阶段的算力分配普遍偏低。
这导致模型虽具备基础能力,却因缺乏高强度难题训练,最终评估表现不佳。
为此,DeepSeek决定实施“名师辅导”计划,设计了一套创新的强化学习协议,在预训练结束后投入超过总训练算力10%的资源进行专项优化,弥补了这一短板。
同时推出了支持超长思考的特殊版本——DeepSeek V3.2 Speciale。
其设计理念在于:传统大模型因上下文长度限制,在训练时会对过长思考施加惩罚。
而DeepSeek V3.2 Speciale直接移除了这一惩罚机制,转而鼓励模型进行任意时长与方式的深度思考。
最终,这一全新模型得以与近期备受关注的Gemini 3展开势均力较的竞争。
此外,DeepSeek持续强化模型在智能体方面的能力。
为提升基础性能,DeepSeek构建了虚拟环境,通过合成海量数据辅助训练。
DeepSeek-V3.2使用了24667个真实代码环境任务、50275个真实搜索任务、4417个合成通用智能体场景以及5908个真实代码解释任务进行后训练。
同时,DeepSeek优化了模型使用工具的流程。
早期版本的一个典型问题是:模型将思考过程与工具调用割裂。
一旦调用外部工具,之前的思考链便告终止,待工具返回结果后,模型往往需要重新构建推理逻辑。
这导致即使是查询“今日日期”这类简单操作,模型也会重复完整的推理步骤,效率低下。
在V3.2中,DeepSeek重构了该逻辑。
新规则规定:在整个工具调用序列中,模型的“思考状态”将持续保留,仅当用户发起新查询时才会重置推理;工具调用记录与结果将作为上下文的一部分永久保存。
通过架构革新、后训练强化与智能体能力提升这三项关键举措,DeepSeek使新模型具备了与国际顶尖开源模型一较高下的实力。
当然,即便取得这些进展,DeepSeek的表现仍非完美。
但最令人欣赏的是,DeepSeek勇于直面自身不足。
并在论文中坦诚记录。
例如论文指出,DeepSeek V3.2 Speciale虽能与谷歌Gemini 3 Pro平分秋色。
但回答相同问题时,DeepSeek需要消耗更多token。
我们进行了实际测试:从“人类终极测试”题库中随机选题,同时提交给Gemini 3 Pro与DeepSeek V3.2 Speciale。
题目如下:
蜂鸟类在足形目中独特地拥有双侧成对的椭圆形骨,这是一种嵌入在膨胀的十字翼腱膜的尾状骨中,嵌入压低多粒骨的尾状骨。这块籽骨支撑着多少对对腱?请用数字回答。
结果显示,Gemini仅用4972个Tokens便给出答案。
而DeepSeek则耗费8077个Tokens才完成解答。
仅从消耗量看,DeepSeek的Tokens用量高出近60%,差距确实存在。
然而,另一个关键因素不容忽视。
DeepSeek虽消耗更多token,但其成本极具竞争力。
回顾该次查询的计费详情。
DeepSeek的8000余个tokens仅花费0.0032美元。
而谷歌方面,不足5000个tokens却消耗0.06美元?成本高达DeepSeek的20倍。
从这个角度看,DeepSeek显然提供了更高的性价比。
最后,回归论文的起始观点。
正如DeepSeek所述,近半年来开源与闭源模型的差距持续扩大。
但他们正以独特方式不断追赶。
DeepSeek在算力与数据效率方面的创新,令人联想到上月Ilya Sutskever的一次访谈。
这位OpenAI前核心人物认为,单纯堆叠参数并非未来方向。
AlexNet仅用两块GPU。Transformer诞生初期的实验规模多在8至64块GPU之间。以当今标准衡量,那仅相当于几块GPU的规模,ResNet亦然。没有任何突破性论文完全依赖庞大计算集群完成。
相较于算力堆砌,算法研究同等重要。
这正是DeepSeek践行之路。
从V2的混合专家系统(MoE),到V3的多头潜在注意力(MLA),再到DeepSeek Math V2的自验证机制与V3.2的稀疏注意力(DSA)。
DeepSeek展现的进步,从来不是单纯通过参数扩张实现。
而是持续探索如何以有限数据,凝聚更多智能。
可谓“巧妇善为无米之炊”。
那么,众人期待的R2何时到来呢?
本文由主机测评网于2026-01-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260122128.html