当前位置:首页 > 科技资讯 > 正文

DeepSeek发布V3.2系列模型,开源模型重回第一梯队

DeepSeek的目标是让开源模型重返行业领先地位。

据智东西12月2日消息,DeepSeek于昨晚正式推出了两款全新模型——DeepSeek-V3.2与DeepSeek-V3.2-Speciale。这两款模型代表了DeepSeek目前最强的技术水平,在推理、智能体等多个领域的基准测试中,均取得了全球开源模型最佳的成绩。

DeepSeek表示,标准版DeepSeek-V3.2在公开推理基准测试中的表现已接近GPT-5,稍逊于Gemini-3.0-Pro;与Kimi-K2-Thinking相比,其输出长度显著缩短,大幅降低了计算成本和用户响应时间。

长思考增强版DeepSeek-V3.2-Speciale则融合了DeepSeek-Math-V2的定理证明技术,展现出卓越的指令跟随、数学证明及逻辑验证能力,在主流推理基准测试中,其性能与Gemini-3.0-Pro不相上下

DeepSeek发布V3.2系列模型,开源模型重回第一梯队 DeepSeek 开源模型 大语言模型 人工智能 第1张

在开源模型领域,DeepSeek-V3.2同样处于领先地位。根据权威评测平台Artificial Analysis的数据,在DeepSeek-V3.2发布之前,开源模型中的智能水平领头羊是Kimi-K2-Thinking。

DeepSeek发布V3.2系列模型,开源模型重回第一梯队 DeepSeek 开源模型 大语言模型 人工智能 第2张

在两者均参与且测试条件一致的基准测试中,DeepSeek-V3.2的各项成绩均超越了Kimi-K2-Thinking。

DeepSeek发布V3.2系列模型,开源模型重回第一梯队 DeepSeek 开源模型 大语言模型 人工智能 第3张

上图展示了DeepSeek-V3.2与Kimi-K2-Thinking的基准测试对比结果,数据源自官方公布信息。

DeepSeek-V3.2是DeepSeek首款将推理过程融入工具调用的模型,它同时支持思考模式与非思考模式下的工具使用。

DeepSeek发布V3.2系列模型,开源模型重回第一梯队 DeepSeek 开源模型 大语言模型 人工智能 第4张

在智能体能力评测中,DeepSeek-V3.2达到了开源模型的顶级水准,显著拉近了与闭源模型的距离。值得注意的是,该模型并未针对测试集进行专门的工具训练,这表明它在实际应用中具备良好的泛化能力。

DeepSeek发布V3.2系列模型,开源模型重回第一梯队 DeepSeek 开源模型 大语言模型 人工智能 第5张

不仅如此,DeepSeek-V3.2-Speciale更是一举夺得IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025金牌。在ICPC和IOI竞赛中,其表现分别相当于人类选手的第二名和第十名。

DeepSeek发布V3.2系列模型,开源模型重回第一梯队 DeepSeek 开源模型 大语言模型 人工智能 第6张

在处理高度复杂任务时,Speciale版本的性能远超标准版,但所需的Tokens数量也大幅增加,成本更高。目前,DeepSeek-V3.2-Speciale仅面向研究用途开放,不支持工具调用,且未对日常对话与写作进行针对性优化。

现阶段,DeepSeek官网、移动应用及API均已升级至正式版DeepSeek-V3.2。Speciale版本则以临时API服务的形式供社区测试研究。DeepSeek-V3.2系列模型现已全面开源,技术报告同步发布。

值得关注的是,技术报告的作者列表中出现了多位熟悉的名字,包括DeepSeek创始人兼CEO梁文锋,以及前不久在乌镇世界互联网大会上代表DeepSeek发言的研究员陈德里。

DeepSeek发布V3.2系列模型,开源模型重回第一梯队 DeepSeek 开源模型 大语言模型 人工智能 第7张

技术报告:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

开源链接:

DeepSeek-V3.2

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

DeepSeek-V3.2-Speciale

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

01.开源与闭源模型差距为何扩大?DeepSeek揭示三大关键因素

近几个月来,开源模型与专有模型之间的性能鸿沟不断拉大,这一现象引发了DeepSeek团队的深入思考。

DeepSeek团队指出,制约开源模型处理复杂任务能力的主要因素包括以下三点。

首先,架构层面,开源模型普遍采用原始注意力机制,这极大制约了长序列处理的效率,进而阻碍了规模化部署和有效的训练后优化。

其次,资源分配上,开源模型在训练后阶段往往算力投入不足,这成为其应对复杂任务时的瓶颈。

最后,在智能体应用领域,与专有模型相比,开源模型的泛化能力和指令遵循能力明显落后,影响了其在实际部署中的表现。

为突破这些限制,DeepSeek率先引入DSA(DeepSeek Sparse Attention)稀疏注意力机制,以显著降低计算复杂度。该架构成功破解了效率难题,即使在长上下文场景下仍能保持模型性能。

其次,DeepSeek研发了一套稳定且可扩展的强化学习协议,支持在训练后阶段大规模扩展算力。值得一提的是,该框架的训练后算力预算超过预训练成本的10%,这一比例在业内颇为罕见,从而释放了模型的深层潜力。

第三,DeepSeek设计了一种创新流程以增强工具使用场景的泛化推理能力。团队采用DeepSeek-V3方法进行冷启动,将推理与工具使用整合在单一轨迹中。

随后,团队推进大规模智能体任务合成,构建了超过1800个不同环境和85000个复杂提示。这些丰富的数据驱动了强化学习过程,大幅提升了模型在智能体场景下的泛化能力和指令遵循水平。

02.以DeepSeek-V3.1最终版为基础,DSA赋能模型更智能计算

DeepSeek-V3.2的架构与此前推出的实验版DeepSeek-V3.2-Exp完全一致。相较于DeepSeek-V3.1系列的最终版本DeepSeek-V3.1-Terminus,DeepSeek-V3.2唯一的架构变化在于通过持续训练引入了DSA。

传统注意力机制在处理每个token时,需与之前所有token进行计算,长文本下极为耗时。DSA的策略是快速筛选出关键少数token,仅对其进行深入分析。

这一筛选过程由闪电索引器(lightning indexer)完成。它计算查询token与前序token的索引分数,从而决定选择哪些token进行计算。由于头数少且可在FP8精度下运行,闪电索引器的计算效率极高。

在获得每个查询token的索引分数后,细粒度令牌选择机制仅检索与top-k索引分数对应的键值条目,并计算输出。

DeepSeek发布V3.2系列模型,开源模型重回第一梯队 DeepSeek 开源模型 大语言模型 人工智能 第8张

DeepSeek-V3.2的训练以DeepSeek-V3.1-Terminus为基础检查点,其上下文长度已扩展至128K。

在继续预训练阶段,模型首先经历“密集预热”,即保持完整注意力机制不变,仅训练索引器,使其学会模仿原始注意力分布。

随后进入稀疏训练阶段,正式引入令牌选择机制,并同步优化整个模型。这种渐进式迁移确保了模型从密集注意力到稀疏结构的平稳过渡,避免性能骤降。

在能力评估中,DeepSeek-V3.2-Exp在标准基准测试、人类偏好评估及多项长上下文任务上的表现均不逊于前代,甚至有所超越。

无论是ChatbotArena的Elo评分,还是AA-LCR、Fiction.liveBench等长序列测试,均表明稀疏注意力的引入并未损害模型质量,反而在长序列推理中展现出显著优势。

在实际推理成本方面,DSA将核心注意力复杂度从平方级降至近似线性增长,序列越长,节省越显著。尽管索引器仍需处理全局信息,但其开销远低于原始MLA。

结合工程优化,DeepSeek-V3.2在H800 GPU上实现了显著的端到端加速,并在短上下文场景下通过专用掩码模式进一步提升效率。总体而言,DeepSeek-V3.2在保持性能不下降的同时,成功突破了长上下文推理的瓶颈。

DeepSeek发布V3.2系列模型,开源模型重回第一梯队 DeepSeek 开源模型 大语言模型 人工智能 第9张

上图为DeepSeek-V3.2在H800 GPU上的端到端加速效果图。

03.构建六类专属模型,实现后训练数据的自我生成

DeepSeek-V3.2的后训练阶段紧随持续预训练之后,旨在将庞大但尚未定型的基础模型,进一步打造为具备推理、工具使用、代理任务及对齐能力的成熟版本。

整个过程延续了DeepSeek-V3.2-Exp的策略,并继续基于稀疏注意力进行高效训练。后训练主要依赖两条路径:专家蒸馏与混合式强化学习,两者结合,确保模型在各个领域获得均衡且稳定的能力提升。

专家蒸馏的核心在于,让不同任务由对应的专家模型负责学习,然后将这些专家的能力融合到统一的大模型中。

团队首先基于同一DeepSeek-V3.2基础检查点,为数学、编程、逻辑推理、通用智能体、智能体编程及智能体搜索六类专业任务分别训练专属模型。这些模型包含思考模式和直接作答模式两类数据,并通过大规模强化学习进行强化,确保每个专家在其领域内达到顶尖水准。

随后,这些专家负责生成高质量的领域数据,用于训练统一的大模型。实验显示,通过专家数据蒸馏得到的大模型性能已非常接近各专家本身,再结合后续的RL微调,残余差距可基本消除。

混合式强化学习环节继续沿用GRPO(Group Relative Policy Optimization)算法,将推理、智能体及人类对齐的训练整合至同一阶段,从而避免多阶段训练常见的灾难性遗忘问题。

推理与智能体任务主要采用规则奖励、长度惩罚及语言一致性奖励;通用任务则由生成式奖励模型根据特定评分标准进行评价。这一设计避免了模型对某一类任务的偏向,确保了整体能力的均衡稳健。

为确保强化学习在大规模计算下稳定推进,团队对GRPO进行了多项改进,使大模型在长时间、高强度训练中仍能保持良好的收敛特性。

在后训练中,DeepSeek-V3.2重点攻克“思考模式与工具使用结合”的难题。为防止模型在多轮工具调用中重复推理,团队设计了一套新的上下文管理机制:仅在新用户消息出现时清除思考轨迹,工具输出的追加不会导致推理内容丢失。

同时,工具调用历史将完整保留,确保模型能连续利用已有推理完成后续动作。训练早期,由于推理数据与代理数据来源不同,模型需通过冷启动方式将“边思考边用工具”的模式拼接起来。为此,团队设计了特定系统提示,让模型在推理轨迹中自然嵌入工具调用,为后续RL提供可学习的示例。

例如,在回答问题1过程中(请求1.1-1.3),模型进行了多次思考+工具调用后给出答案。在这个过程中,用户需回传思维链内容(reasoning_content)给 API,以让模型继续思考。在下一个用户问题开始时(请求2.1),需删除之前的思维链,并保留其它内容发送给API。

DeepSeek发布V3.2系列模型,开源模型重回第一梯队 DeepSeek 开源模型 大语言模型 人工智能 第10张

上图展示了工具调用历史的保存机制。

真正的能力提升源于大规模的代理任务强化学习,涵盖搜索、代码修复、代码解释以及由自动环境生成器创建的各种可验证任务。这些任务通常复杂度高、可验证性强,是RL训练的绝佳素材。

最终诞生的DeepSeek-V3.2是融合了专家蒸馏数据、混合RL训练及工具思考机制的统一模型,兼具思考与非思考能力。而实验版本DeepSeek-V3.2-Speciale则在推理方向上加码训练,旨在探索更长推理路径的潜力。

04.结语:兼顾计算效率与推理能力,知识广度与token效率仍有提升空间

DeepSeek-V3.2实现了计算效率与高级推理能力的平衡。DSA在保证长上下文性能的前提下,解决了关键的计算复杂度问题。随着计算预算增加,DeepSeek-V3.2在推理基准测试中达到了与GPT-5相当的水平。

此外,DeepSeek集成的大规模智能体任务合成流水线,极大增强了工具使用能力,为构建稳健且泛化的开源大模型智能体开辟了新路径。

不过,DeepSeek坦言,由于整体训练FLOPs有限,DeepSeek-V3.2的世界知识广度仍不及领先的专有模型。未来计划通过扩大预训练计算量来缩小这一差距。

其次,token效率仍是挑战;DeepSeek-V3.2通常需更长的生成轨迹(更多tokens)才能达到Gemini-3.0-Pro等模型的输出质量。未来工作将聚焦于优化推理链的“智能密度”,以提升效率。

第三,在复杂任务处理上,DeepSeek-V3.2与前沿模型仍有差距。DeepSeek表示将持续完善基础模型及后训练方案。