当前位置：首页 > 科技资讯 > 正文

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰

主机测评网
科技资讯
2026-02-25
944

令人遗憾的消息，开源与闭源模型之间的鸿沟正在日益加深。

然而，DeepSeek再次出手了。

12月1日，DeepSeek正式推出两款全新模型——DeepSeek V3.2与DeepSeek-V3.2-Speciale。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第1张

前者与GPT-5交锋不落下风，后者高性能版更是直接超越GPT，与闭源模型的天花板——Gemini打成平手。

此外，它在IMO 2025（国际数学奥林匹克）、CMO 2025（中国数学奥林匹克）等一系列赛事中斩获金牌。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第2张

这是该公司今年第九次发布模型，尽管众人期待的R2仍未现身。

那么，DeepSeek是如何凭借更少的数据、更有限的显卡资源，打造出能与国际巨头抗衡的模型呢？

我们翻阅了他们的论文，试图为大家理清其中的门道。

为了实现这一目标，DeepSeek又祭出了一系列新招：

首先，他们将老朋友DSA——稀疏注意力正式扶正。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第3张

这一技术曾在之前的V3.2-EXP版本中试验过，当时仅测试DSA对模型性能的影响，如今已真正应用到主力模型上。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第4张

大家在使用大模型聊天时或许会发现，对话框里的对话越长，模型越容易答非所问。

甚至聊得太多，系统会直接中断对话。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第5张

这源于大模型原生的注意力机制：在原有逻辑下，每个token生成时，都需要与前面所有token逐一计算关联。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第6张

这就导致句子长度翻倍时，计算量激增至四倍；若长度增至三倍，计算量则膨胀为九倍，极为棘手。

DeepSeek意识到问题所在，于是为模型引入固定页数的目录机制（即稀疏注意力），相当于帮模型划出重点。

有了目录后，每次只需计算当前token与这些目录的关系，好比读书先看目录，对感兴趣章节再细读内容。

这样一来，模型处理长文本的能力大幅提升。

从下图可见，随着文本增长，传统V3.1的推理成本急剧上升。

而采用稀疏注意力的V3.2则几乎保持平稳。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第7张

堪称省钱冠军。

另一方面，DeepSeek开始高度重视开源模型的后训练环节。

大模型从预训练到考试评分的过程，恰似人类从小学到高考的求学之路。

前期大规模预训练相当于从小学到高二，通读所有课本、练习册和试卷，这一步无论闭源还是开源模型都扎实进行。

但到了冲刺阶段就大不相同：在模型后训练中，闭源模型通常聘请名师、疯狂刷题，运用各种强化学习，最终取得优异成绩。

而开源模型在此环节投入较少，按DeepSeek的说法，过去开源模型在训练后阶段的计算投入普遍偏低。

导致这些模型基础能力虽已到位，但因难题训练不足，成绩不尽如人意。

于是，DeepSeek决定这次亲自上名师辅导班，设计全新强化学习协议，在预训练结束后，投入超过总训练算力10%的资源为模型“开小灶”，补齐短板。

同时还推出能进行超长思考的特殊版本——DeepSeek V3.2 Speciale。

其思路如下：

传统大模型因上下文长度限制，训练时往往设置惩罚机制，若模型思考内容过长则扣分。

而DeepSeek V3.2 Speciale则干脆取消扣分项，反而鼓励模型自由思考，想多久就多久。

最终，这款全新模型成功与近期火爆的Gemini 3一较高下。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第8张

此外，DeepSeek对模型的智能体能力也极为重视。

一方面，为提升基础能力，DeepSeek构建虚拟环境，合成成千上万条数据辅助训练。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第9张

DeepSeek-V3.2采用24667个真实代码环境任务、50275个真实搜索任务、4417个合成通用agent场景、5908个真实代码解释任务进行后训练。

另一方面，DeepSeek优化了模型使用各类工具的流程。

前几代DeepSeek的一个典型问题是：思考与工具调用相分离。

模型一旦调用外部工具，之前的思考便中断，待工具返回结果后，往往需要重新梳理思路。

这导致一种尴尬体验：即便只是查询“今天几月几号”这样的小事，模型也要从头重建推理链，极为耗时。

在V3.2中，DeepSeek彻底推翻了这套逻辑。

新规则变为：在工具调用的整个过程中，模型的“思考过程”持续保留，仅当用户发起新提问时才重置推理；工具的调用记录和结果则像聊天记录一样保留在上下文中。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第10张

凭借修改模型架构、重视后训练、强化Agent能力这三大举措，DeepSeek终于让新模型具备了与世界顶尖开源模型再次抗衡的实力。

当然，即便改进众多，DeepSeek的表现也并非尽善尽美。

但托尼最欣赏DeepSeek的一点，是他们敢于承认不足。

并且直接在论文中坦然道出。

例如本次论文提到，尽管DeepSeek V3.2 Speciale能与谷歌的Gemini 3 Pro打成平手。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第11张

但回答相同问题，DeepSeek需要耗费更多token。

我也亲自测试了一番：从“人类的最终考试”题库中随机抽取一题，同时交给Gemini 3 Pro和DeepSeek V3.2 Speciale。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第12张

题目是：

蜂鸟类在足形目中独特地拥有双侧成对的椭圆形骨，这是一种嵌入在膨胀的十字翼腱膜的尾状骨中，嵌入压低多粒骨的尾状骨。这块籽骨支撑着多少对对腱？请用数字回答。

结果发现Gemini仅用4972个Tokens便答出。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第13张

而DeepSeek则用了8077个Tokens才弄明白。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第14张

单纯看用量，DeepSeek的Tokens消耗高出近六成，确实存在差距。

但话又说回来。

DeepSeek虽耗Token多，但价格实惠啊。

还是刚才那个问题，我事后仔细查看了账单。

DeepSeek的8000多Tokens，花费仅0.0032美元。

而谷歌这边，不到5000个Tokens，却耗掉0.06美元！比DeepSeek高出20倍有余。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第15张

从这个角度看，似乎还是DeepSeek更划算。

最后，让我们回到论文的开篇。

正如DeepSeek所言，近半年来，开源与闭源模型的差距持续扩大。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第16张

但他们仍在用自己的方式不懈追赶。

而DeepSeek种种节省算力、节约数据的操作，不禁让我想起上个月一场关于Ilya Sutskever的访谈。

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化开源模型第17张

这位OpenAI的前灵魂人物认为，一味堆砌参数没有未来。

AlexNet仅用两块GPU；Transformer诞生时的实验规模多在8～64块GPU范围内，按今日标准甚至只相当于几块GPU的规模，ResNet亦是如此。没有哪篇论文靠庞大集群完成。

相比算力堆砌，算法研究同样至关重要。

这正是DeepSeek所践行的。

从V2的MoE，到V3的多头潜在注意力（MLA），再到如今DeepSeek Math V2的自验证机制、V3.2的稀疏注意力（DSA）。

DeepSeek展示的进步，从来不是单纯依靠参数规模堆砌而来。

而是致力于用有限的数据，凝聚出更多智能。

巧妇能为无米之炊

那么，R2究竟何时到来呢？

性价比vps 服务器教程性价比服务器

本文由主机测评网于2026-02-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260227158.html

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰

AMD锐龙H255+780M核显虚拟机安装macOS 15 Sequoia教程(可登录AppleID详细版)

Linux自由开源操作系统（从小白到入门的完全指南）

DeepSeek V3.2震撼发布：稀疏注意力、后训练强化，开源模型再攀高峰

AMD锐龙H255+780M核显虚拟机安装macOS 15 Sequoia教程(可登录AppleID详细版)

Linux自由开源操作系统（从小白到入门的完全指南）

相关文章