当前位置:首页 > 科技资讯 > 正文

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰

令人遗憾的消息,开源与闭源模型之间的鸿沟正在日益加深。

然而,DeepSeek再次出手了。

12月1日,DeepSeek正式推出两款全新模型——DeepSeek V3.2与DeepSeek-V3.2-Speciale。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第1张

前者与GPT-5交锋不落下风,后者高性能版更是直接超越GPT,与闭源模型的天花板——Gemini打成平手。

此外,它在IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)等一系列赛事中斩获金牌。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第2张

这是该公司今年第九次发布模型,尽管众人期待的R2仍未现身。

那么,DeepSeek是如何凭借更少的数据、更有限的显卡资源,打造出能与国际巨头抗衡的模型呢?

我们翻阅了他们的论文,试图为大家理清其中的门道。

为了实现这一目标,DeepSeek又祭出了一系列新招:

首先,他们将老朋友DSA——稀疏注意力正式扶正。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第3张

这一技术曾在之前的V3.2-EXP版本中试验过,当时仅测试DSA对模型性能的影响,如今已真正应用到主力模型上。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第4张

大家在使用大模型聊天时或许会发现,对话框里的对话越长,模型越容易答非所问。

甚至聊得太多,系统会直接中断对话。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第5张

这源于大模型原生的注意力机制:在原有逻辑下,每个token生成时,都需要与前面所有token逐一计算关联。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第6张

这就导致句子长度翻倍时,计算量激增至四倍;若长度增至三倍,计算量则膨胀为九倍,极为棘手。

DeepSeek意识到问题所在,于是为模型引入固定页数的目录机制(即稀疏注意力),相当于帮模型划出重点。

有了目录后,每次只需计算当前token与这些目录的关系,好比读书先看目录,对感兴趣章节再细读内容。

这样一来,模型处理长文本的能力大幅提升。

从下图可见,随着文本增长,传统V3.1的推理成本急剧上升。

而采用稀疏注意力的V3.2则几乎保持平稳。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第7张

堪称省钱冠军。

另一方面,DeepSeek开始高度重视开源模型的后训练环节。

大模型从预训练到考试评分的过程,恰似人类从小学到高考的求学之路。

前期大规模预训练相当于从小学到高二,通读所有课本、练习册和试卷,这一步无论闭源还是开源模型都扎实进行。

但到了冲刺阶段就大不相同:在模型后训练中,闭源模型通常聘请名师、疯狂刷题,运用各种强化学习,最终取得优异成绩。

而开源模型在此环节投入较少,按DeepSeek的说法,过去开源模型在训练后阶段的计算投入普遍偏低。

导致这些模型基础能力虽已到位,但因难题训练不足,成绩不尽如人意。

于是,DeepSeek决定这次亲自上名师辅导班,设计全新强化学习协议,在预训练结束后,投入超过总训练算力10%的资源为模型“开小灶”,补齐短板。

同时还推出能进行超长思考的特殊版本——DeepSeek V3.2 Speciale

其思路如下:

传统大模型因上下文长度限制,训练时往往设置惩罚机制,若模型思考内容过长则扣分。

而DeepSeek V3.2 Speciale则干脆取消扣分项,反而鼓励模型自由思考,想多久就多久。

最终,这款全新模型成功与近期火爆的Gemini 3一较高下。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第8张

此外,DeepSeek对模型的智能体能力也极为重视。

一方面,为提升基础能力,DeepSeek构建虚拟环境,合成成千上万条数据辅助训练。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第9张

DeepSeek-V3.2采用24667个真实代码环境任务、50275个真实搜索任务、4417个合成通用agent场景、5908个真实代码解释任务进行后训练。

另一方面,DeepSeek优化了模型使用各类工具的流程。

前几代DeepSeek的一个典型问题是:思考与工具调用相分离。

模型一旦调用外部工具,之前的思考便中断,待工具返回结果后,往往需要重新梳理思路。

这导致一种尴尬体验:即便只是查询“今天几月几号”这样的小事,模型也要从头重建推理链,极为耗时。

在V3.2中,DeepSeek彻底推翻了这套逻辑。

新规则变为:在工具调用的整个过程中,模型的“思考过程”持续保留,仅当用户发起新提问时才重置推理;工具的调用记录和结果则像聊天记录一样保留在上下文中。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第10张

凭借修改模型架构、重视后训练、强化Agent能力这三大举措,DeepSeek终于让新模型具备了与世界顶尖开源模型再次抗衡的实力。

当然,即便改进众多,DeepSeek的表现也并非尽善尽美。

但托尼最欣赏DeepSeek的一点,是他们敢于承认不足。

并且直接在论文中坦然道出。

例如本次论文提到,尽管DeepSeek V3.2 Speciale能与谷歌的Gemini 3 Pro打成平手。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第11张

但回答相同问题,DeepSeek需要耗费更多token。

我也亲自测试了一番:从“人类的最终考试”题库中随机抽取一题,同时交给Gemini 3 Pro和DeepSeek V3.2 Speciale。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第12张

题目是:

蜂鸟类在足形目中独特地拥有双侧成对的椭圆形骨,这是一种嵌入在膨胀的十字翼腱膜的尾状骨中,嵌入压低多粒骨的尾状骨。这块籽骨支撑着多少对对腱?请用数字回答。

结果发现Gemini仅用4972个Tokens便答出。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第13张

而DeepSeek则用了8077个Tokens才弄明白。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第14张

单纯看用量,DeepSeek的Tokens消耗高出近六成,确实存在差距。

但话又说回来。

DeepSeek虽耗Token多,但价格实惠啊。

还是刚才那个问题,我事后仔细查看了账单。

DeepSeek的8000多Tokens,花费仅0.0032美元。

而谷歌这边,不到5000个Tokens,却耗掉0.06美元!比DeepSeek高出20倍有余。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第15张

从这个角度看,似乎还是DeepSeek更划算。

最后,让我们回到论文的开篇。

正如DeepSeek所言,近半年来,开源与闭源模型的差距持续扩大。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第16张

但他们仍在用自己的方式不懈追赶。

而DeepSeek种种节省算力、节约数据的操作,不禁让我想起上个月一场关于Ilya Sutskever的访谈。

DeepSeek V3.2震撼发布:稀疏注意力、后训练强化,开源模型再攀高峰 V3.2 稀疏注意力(DSA) 后训练强化 开源模型 第17张

这位OpenAI的前灵魂人物认为,一味堆砌参数没有未来。

AlexNet仅用两块GPU;Transformer诞生时的实验规模多在8~64块GPU范围内,按今日标准甚至只相当于几块GPU的规模,ResNet亦是如此。没有哪篇论文靠庞大集群完成。

相比算力堆砌,算法研究同样至关重要。

这正是DeepSeek所践行的。

从V2的MoE,到V3的多头潜在注意力(MLA),再到如今DeepSeek Math V2的自验证机制、V3.2的稀疏注意力(DSA)。

DeepSeek展示的进步,从来不是单纯依靠参数规模堆砌而来。

而是致力于用有限的数据,凝聚出更多智能。

巧妇能为无米之炊

那么,R2究竟何时到来呢?