当前位置：首页 > 科技资讯 > 正文

DeepSeek发布V3.2系列模型，开源模型重回第一梯队

主机测评网
科技资讯
2026-02-24
981

DeepSeek的目标是让开源模型重返行业领先地位。

据智东西12月2日消息，DeepSeek于昨晚正式推出了两款全新模型——DeepSeek-V3.2与DeepSeek-V3.2-Speciale。这两款模型代表了DeepSeek目前最强的技术水平，在推理、智能体等多个领域的基准测试中，均取得了全球开源模型最佳的成绩。

DeepSeek表示，标准版DeepSeek-V3.2在公开推理基准测试中的表现已接近GPT-5，稍逊于Gemini-3.0-Pro；与Kimi-K2-Thinking相比，其输出长度显著缩短，大幅降低了计算成本和用户响应时间。

长思考增强版DeepSeek-V3.2-Speciale则融合了DeepSeek-Math-V2的定理证明技术，展现出卓越的指令跟随、数学证明及逻辑验证能力，在主流推理基准测试中，其性能与Gemini-3.0-Pro不相上下。

DeepSeek发布V3.2系列模型，开源模型重回第一梯队 DeepSeek 开源模型大语言模型人工智能第1张

在开源模型领域，DeepSeek-V3.2同样处于领先地位。根据权威评测平台Artificial Analysis的数据，在DeepSeek-V3.2发布之前，开源模型中的智能水平领头羊是Kimi-K2-Thinking。

DeepSeek发布V3.2系列模型，开源模型重回第一梯队 DeepSeek 开源模型大语言模型人工智能第2张

在两者均参与且测试条件一致的基准测试中，DeepSeek-V3.2的各项成绩均超越了Kimi-K2-Thinking。

DeepSeek发布V3.2系列模型，开源模型重回第一梯队 DeepSeek 开源模型大语言模型人工智能第3张

上图展示了DeepSeek-V3.2与Kimi-K2-Thinking的基准测试对比结果，数据源自官方公布信息。

DeepSeek-V3.2是DeepSeek首款将推理过程融入工具调用的模型，它同时支持思考模式与非思考模式下的工具使用。

DeepSeek发布V3.2系列模型，开源模型重回第一梯队 DeepSeek 开源模型大语言模型人工智能第4张

在智能体能力评测中，DeepSeek-V3.2达到了开源模型的顶级水准，显著拉近了与闭源模型的距离。值得注意的是，该模型并未针对测试集进行专门的工具训练，这表明它在实际应用中具备良好的泛化能力。

DeepSeek发布V3.2系列模型，开源模型重回第一梯队 DeepSeek 开源模型大语言模型人工智能第5张

不仅如此，DeepSeek-V3.2-Speciale更是一举夺得IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025金牌。在ICPC和IOI竞赛中，其表现分别相当于人类选手的第二名和第十名。

DeepSeek发布V3.2系列模型，开源模型重回第一梯队 DeepSeek 开源模型大语言模型人工智能第6张

在处理高度复杂任务时，Speciale版本的性能远超标准版，但所需的Tokens数量也大幅增加，成本更高。目前，DeepSeek-V3.2-Speciale仅面向研究用途开放，不支持工具调用，且未对日常对话与写作进行针对性优化。

现阶段，DeepSeek官网、移动应用及API均已升级至正式版DeepSeek-V3.2。Speciale版本则以临时API服务的形式供社区测试研究。DeepSeek-V3.2系列模型现已全面开源，技术报告同步发布。

值得关注的是，技术报告的作者列表中出现了多位熟悉的名字，包括DeepSeek创始人兼CEO梁文锋，以及前不久在乌镇世界互联网大会上代表DeepSeek发言的研究员陈德里。

DeepSeek发布V3.2系列模型，开源模型重回第一梯队 DeepSeek 开源模型大语言模型人工智能第7张

技术报告：

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

开源链接：

DeepSeek-V3.2

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

DeepSeek-V3.2-Speciale

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

01.开源与闭源模型差距为何扩大？DeepSeek揭示三大关键因素

近几个月来，开源模型与专有模型之间的性能鸿沟不断拉大，这一现象引发了DeepSeek团队的深入思考。

DeepSeek团队指出，制约开源模型处理复杂任务能力的主要因素包括以下三点。

首先，架构层面，开源模型普遍采用原始注意力机制，这极大制约了长序列处理的效率，进而阻碍了规模化部署和有效的训练后优化。

其次，资源分配上，开源模型在训练后阶段往往算力投入不足，这成为其应对复杂任务时的瓶颈。

最后，在智能体应用领域，与专有模型相比，开源模型的泛化能力和指令遵循能力明显落后，影响了其在实际部署中的表现。

为突破这些限制，DeepSeek率先引入DSA（DeepSeek Sparse Attention）稀疏注意力机制，以显著降低计算复杂度。该架构成功破解了效率难题，即使在长上下文场景下仍能保持模型性能。

其次，DeepSeek研发了一套稳定且可扩展的强化学习协议，支持在训练后阶段大规模扩展算力。值得一提的是，该框架的训练后算力预算超过预训练成本的10%，这一比例在业内颇为罕见，从而释放了模型的深层潜力。

第三，DeepSeek设计了一种创新流程以增强工具使用场景的泛化推理能力。团队采用DeepSeek-V3方法进行冷启动，将推理与工具使用整合在单一轨迹中。

随后，团队推进大规模智能体任务合成，构建了超过1800个不同环境和85000个复杂提示。这些丰富的数据驱动了强化学习过程，大幅提升了模型在智能体场景下的泛化能力和指令遵循水平。

02.以DeepSeek-V3.1最终版为基础，DSA赋能模型更智能计算

DeepSeek-V3.2的架构与此前推出的实验版DeepSeek-V3.2-Exp完全一致。相较于DeepSeek-V3.1系列的最终版本DeepSeek-V3.1-Terminus，DeepSeek-V3.2唯一的架构变化在于通过持续训练引入了DSA。

传统注意力机制在处理每个token时，需与之前所有token进行计算，长文本下极为耗时。DSA的策略是快速筛选出关键少数token，仅对其进行深入分析。

这一筛选过程由闪电索引器（lightning indexer）完成。它计算查询token与前序token的索引分数，从而决定选择哪些token进行计算。由于头数少且可在FP8精度下运行，闪电索引器的计算效率极高。

在获得每个查询token的索引分数后，细粒度令牌选择机制仅检索与top-k索引分数对应的键值条目，并计算输出。

DeepSeek发布V3.2系列模型，开源模型重回第一梯队 DeepSeek 开源模型大语言模型人工智能第8张

DeepSeek-V3.2的训练以DeepSeek-V3.1-Terminus为基础检查点，其上下文长度已扩展至128K。

在继续预训练阶段，模型首先经历“密集预热”，即保持完整注意力机制不变，仅训练索引器，使其学会模仿原始注意力分布。

随后进入稀疏训练阶段，正式引入令牌选择机制，并同步优化整个模型。这种渐进式迁移确保了模型从密集注意力到稀疏结构的平稳过渡，避免性能骤降。

在能力评估中，DeepSeek-V3.2-Exp在标准基准测试、人类偏好评估及多项长上下文任务上的表现均不逊于前代，甚至有所超越。

无论是ChatbotArena的Elo评分，还是AA-LCR、Fiction.liveBench等长序列测试，均表明稀疏注意力的引入并未损害模型质量，反而在长序列推理中展现出显著优势。

在实际推理成本方面，DSA将核心注意力复杂度从平方级降至近似线性增长，序列越长，节省越显著。尽管索引器仍需处理全局信息，但其开销远低于原始MLA。

结合工程优化，DeepSeek-V3.2在H800 GPU上实现了显著的端到端加速，并在短上下文场景下通过专用掩码模式进一步提升效率。总体而言，DeepSeek-V3.2在保持性能不下降的同时，成功突破了长上下文推理的瓶颈。

DeepSeek发布V3.2系列模型，开源模型重回第一梯队 DeepSeek 开源模型大语言模型人工智能第9张

上图为DeepSeek-V3.2在H800 GPU上的端到端加速效果图。

03.构建六类专属模型，实现后训练数据的自我生成

DeepSeek-V3.2的后训练阶段紧随持续预训练之后，旨在将庞大但尚未定型的基础模型，进一步打造为具备推理、工具使用、代理任务及对齐能力的成熟版本。

整个过程延续了DeepSeek-V3.2-Exp的策略，并继续基于稀疏注意力进行高效训练。后训练主要依赖两条路径：专家蒸馏与混合式强化学习，两者结合，确保模型在各个领域获得均衡且稳定的能力提升。

专家蒸馏的核心在于，让不同任务由对应的专家模型负责学习，然后将这些专家的能力融合到统一的大模型中。

团队首先基于同一DeepSeek-V3.2基础检查点，为数学、编程、逻辑推理、通用智能体、智能体编程及智能体搜索六类专业任务分别训练专属模型。这些模型包含思考模式和直接作答模式两类数据，并通过大规模强化学习进行强化，确保每个专家在其领域内达到顶尖水准。

随后，这些专家负责生成高质量的领域数据，用于训练统一的大模型。实验显示，通过专家数据蒸馏得到的大模型性能已非常接近各专家本身，再结合后续的RL微调，残余差距可基本消除。

混合式强化学习环节继续沿用GRPO（Group Relative Policy Optimization）算法，将推理、智能体及人类对齐的训练整合至同一阶段，从而避免多阶段训练常见的灾难性遗忘问题。

推理与智能体任务主要采用规则奖励、长度惩罚及语言一致性奖励；通用任务则由生成式奖励模型根据特定评分标准进行评价。这一设计避免了模型对某一类任务的偏向，确保了整体能力的均衡稳健。

为确保强化学习在大规模计算下稳定推进，团队对GRPO进行了多项改进，使大模型在长时间、高强度训练中仍能保持良好的收敛特性。

在后训练中，DeepSeek-V3.2重点攻克“思考模式与工具使用结合”的难题。为防止模型在多轮工具调用中重复推理，团队设计了一套新的上下文管理机制：仅在新用户消息出现时清除思考轨迹，工具输出的追加不会导致推理内容丢失。

同时，工具调用历史将完整保留，确保模型能连续利用已有推理完成后续动作。训练早期，由于推理数据与代理数据来源不同，模型需通过冷启动方式将“边思考边用工具”的模式拼接起来。为此，团队设计了特定系统提示，让模型在推理轨迹中自然嵌入工具调用，为后续RL提供可学习的示例。

例如，在回答问题1过程中（请求1.1-1.3），模型进行了多次思考+工具调用后给出答案。在这个过程中，用户需回传思维链内容（reasoning_content）给 API，以让模型继续思考。在下一个用户问题开始时（请求2.1），需删除之前的思维链，并保留其它内容发送给API。

DeepSeek发布V3.2系列模型，开源模型重回第一梯队 DeepSeek 开源模型大语言模型人工智能第10张

上图展示了工具调用历史的保存机制。

真正的能力提升源于大规模的代理任务强化学习，涵盖搜索、代码修复、代码解释以及由自动环境生成器创建的各种可验证任务。这些任务通常复杂度高、可验证性强，是RL训练的绝佳素材。

最终诞生的DeepSeek-V3.2是融合了专家蒸馏数据、混合RL训练及工具思考机制的统一模型，兼具思考与非思考能力。而实验版本DeepSeek-V3.2-Speciale则在推理方向上加码训练，旨在探索更长推理路径的潜力。

04.结语：兼顾计算效率与推理能力，知识广度与token效率仍有提升空间

DeepSeek-V3.2实现了计算效率与高级推理能力的平衡。DSA在保证长上下文性能的前提下，解决了关键的计算复杂度问题。随着计算预算增加，DeepSeek-V3.2在推理基准测试中达到了与GPT-5相当的水平。

此外，DeepSeek集成的大规模智能体任务合成流水线，极大增强了工具使用能力，为构建稳健且泛化的开源大模型智能体开辟了新路径。

不过，DeepSeek坦言，由于整体训练FLOPs有限，DeepSeek-V3.2的世界知识广度仍不及领先的专有模型。未来计划通过扩大预训练计算量来缩小这一差距。

其次，token效率仍是挑战；DeepSeek-V3.2通常需更长的生成轨迹（更多tokens）才能达到Gemini-3.0-Pro等模型的输出质量。未来工作将聚焦于优化推理链的“智能密度”，以提升效率。

第三，在复杂任务处理上，DeepSeek-V3.2与前沿模型仍有差距。DeepSeek表示将持续完善基础模型及后训练方案。

免费服务器

本文由主机测评网于2026-02-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260227009.html

DeepSeek发布V3.2系列模型，开源模型重回第一梯队

01.开源与闭源模型差距为何扩大？DeepSeek揭示三大关键因素

02.以DeepSeek-V3.1最终版为基础，DSA赋能模型更智能计算

03.构建六类专属模型，实现后训练数据的自我生成

04.结语：兼顾计算效率与推理能力，知识广度与token效率仍有提升空间

Windows11安装WSL+Linux的Windows子系统+可视化界面配置（小白也能看懂的完整教程）

Linux线程池从零实现：完整设计与单例模式应用（手把手教程）

DeepSeek发布V3.2系列模型，开源模型重回第一梯队

01.开源与闭源模型差距为何扩大？DeepSeek揭示三大关键因素

02.以DeepSeek-V3.1最终版为基础，DSA赋能模型更智能计算

03.构建六类专属模型，实现后训练数据的自我生成

04.结语：兼顾计算效率与推理能力，知识广度与token效率仍有提升空间

Windows11安装WSL+Linux的Windows子系统+可视化界面配置 （小白也能看懂的完整教程）

Linux线程池从零实现：完整设计与单例模式应用（手把手教程）

相关文章

Windows11安装WSL+Linux的Windows子系统+可视化界面配置（小白也能看懂的完整教程）