当前位置:首页 > 科技资讯 > 正文

DeepSeek V3.2重磅发布:开源模型实现思考与工具调用融合,推理能力媲美GPT-5

在ChatGPT迎来三周年纪念时刻,DeepSeek团队献上了一份特殊的「生日贺礼」。

就在不久前,DeepSeek一举推出两款全新模型:DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale。这两大模型不仅在推理性能上直追 GPT-5 和 Gemini-3.0-Pro,更为关键的是,它们攻克了一个长期制约开源模型发展的难题:

如何让人工智能同时具备深度思考与灵活使用工具的能力?

DeepSeek V3.2重磅发布:开源模型实现思考与工具调用融合,推理能力媲美GPT-5 DeepSeek-V3.2  开源AI模型 推理能力 工具调用 第1张

新模型的核心亮点概览如下:

  • DeepSeek-V3.2(标准版):聚焦高性价比与日常应用,推理水平达到 GPT-5 级别,相较于 Kimi-K2-Thinking,其输出更简洁、响应更迅速且成本更低,并首次实现了「思考与工具调用并行」。官网、移动应用及API接口均已升级至此版本,适用于日常问答、内容创作与智能体任务。
  • DeepSeek-V3.2-Speciale(终极增强版):致力于探索人工智能的能力边界,性能可媲美 Gemini-3.0-Pro,在2025年国际数学奥林匹克(IMO)、国际信息学奥林匹克(IOI)及国际大学生程序设计竞赛(ICPC)中均斩获金牌(IOI排名相当于人类第10位,ICPC排名第2位)。该版本仅提供临时API接口,思考链条长、Token消耗大、成本较高,不支持工具调用,也未对日常对话进行优化,服务将于2025年12月15日终止。

两款模型的权重参数已在 HuggingFace 和 ModelScope 平台全面开源,用户可下载并进行本地化部署。

破解迟缓、笨拙、呆板难题?DeepSeek V3.2 引入三大创新技术

过去数月,人工智能领域呈现出一个鲜明趋势:闭源模型持续加速进化,而开源模型却略显乏力。DeepSeek 团队通过深入分析发现,开源模型在处理复杂任务时面临三大核心瓶颈:架构设计、资源分配以及智能体能力。

针对这三重挑战,DeepSeek 此次祭出了三项创新解决方案。

如果您曾使用AI模型处理超长文档,或许遇到过响应速度逐渐下降甚至卡顿的情况。这背后是传统注意力机制的局限性所致。

传统注意力机制的工作原理是:每个字符都需要与之前的所有字符进行相关性计算。文档长度增加,计算量便呈指数级增长。这犹如在一个千人群组中寻找对话对象,每次发言前都需逐一确认千名成员的身份,效率极其低下。

DeepSeek 此次引入的 DSA(稀疏注意力机制)采用了全新思路:无需关注每一个字符,仅聚焦于真正关键的部分。

DeepSeek V3.2重磅发布:开源模型实现思考与工具调用融合,推理能力媲美GPT-5 DeepSeek-V3.2  开源AI模型 推理能力 工具调用 第2张

其核心是一个名为「闪电索引器」的组件。

该索引器会快速为每个字符进行评分,随后仅选取分数最高的字符进行注意力计算。如同在千人群组中,先通过搜索功能筛选出名字含「张」的成员,再从这50人中定位目标对象张三,效率得到质的飞跃。

更巧妙的是,闪电索引器本身消耗的计算资源极少,且支持 FP8 精度计算(一种低精度但高效率的计算方式),因此不会成为新的性能瓶颈。

实际效果如何?V3.2 支持长达128K的上下文,相当于一部中篇小说的体量,但处理速度与效率均大幅提升。根据官方在各种场景下的测试,DSA 版本的表现与传统注意力机制不相上下,部分场景甚至更优。

V3.2 是在前代 V3.1-Terminus 的基础上,通过持续训练引入 DSA 的。整个过程分为两个阶段,均采用了与 V3.1-Terminus 扩展至128K时完全相同的数据分布,确保了模型能力的平稳过渡。

DeepSeek V3.2重磅发布:开源模型实现思考与工具调用融合,推理能力媲美GPT-5 DeepSeek-V3.2  开源AI模型 推理能力 工具调用 第3张

此外,优秀的架构仍需匹配高效的训练。

开源模型与闭源模型之间的另一道差距在于:开源模型在训练后期投入的计算资源往往不足。这好比建造房屋,预算耗尽后草草装修,入住后便问题频出。

技术报告显示,DeepSeek 在后训练阶段投入的计算成本超过了预训练阶段的10%。然而,资源投入亦需讲究策略。DeepSeek 构建了一个「稳定且可扩展的强化学习训练框架」,该框架具备两大特点。

一是稳定性。强化学习训练本身波动较大,易出现训练崩溃或性能震荡。DeepSeek 的框架能够在大规模计算下保持训练稳定,这本身就是一项技术突破。

二是可扩展性。该框架允许后训练阶段的计算预算远超传统做法,从而充分释放模型的高级潜能。

具体训练流程分为两步。

第一步是「专家蒸馏」。团队在数学、编程、逻辑推理、智能体任务等六大专业领域,分别训练出专用的专家模型。每个专家模型均在大规模强化学习计算下完成训练,并针对「思维模式」(长链式思考)和「非思维模式」(直接应答)生成相应的训练数据。

DeepSeek V3.2重磅发布:开源模型实现思考与工具调用融合,推理能力媲美GPT-5 DeepSeek-V3.2  开源AI模型 推理能力 工具调用 第4张

专家模型训练完成后,便以其生成的数据训练最终模型。实验结果表明,使用这些专家蒸馏数据训练的模型,性能仅略低于对应的专家模型,且这点差距在后续的强化学习训练中得以弥补。

第二步是「混合强化学习训练」。DeepSeek 继续采用 GRPO(组相对策略优化)作为核心训练算法,将推理任务、智能体任务和人类偏好对齐任务统一整合到一个强化学习阶段。

这种一体化训练的优势在于,既能提升不同任务领域的性能,又可避免传统多阶段训练中常见的「灾难性遗忘」问题。您可以将其理解为:AI 在学习新技能的同时,不会遗忘旧有技能。

在推理和智能体任务中,团队使用基于规则的结果奖励、输出长度惩罚、语言一致性奖励来引导模型学习。而在通用任务中,则采用生成式奖励模型,依据每个提示单独定义评价标准。

V3.2 便是在这种混合强化学习下,经过上千步训练得到的稳定版本。而 Speciale 版本则更为激进,它仅在推理任务数据上训练,降低了输出长度惩罚,并引入了 DeepSeekMath-V2 的数据集与奖励机制,进一步强化数学证明能力。

最终成果是:V3.2 的推理能力直追 GPT-5,而 Speciale 版本因放宽思考长度限制,性能更是逼近 Gemini-3.0-Pro。

思考与工具调用并行:AI 学会「边想边做」

以往的 DeepSeek 模型存在一个尴尬局限:进入「思考模式」后,便无法调用搜索、代码执行等工具。这好比一个人陷入沉思后,双手便停止活动,显然不符合人类解决复杂问题的方式。

现实中,我们面对难题时,往往是边思考边查阅资料,边分析边验证,思考与行动交织进行。AI 理应具备相同的能力。

DeepSeek 团队发现,若直接复制 DeepSeek-R1 的策略(在收到第二轮消息后丢弃之前的推理内容),会严重降低 Token 使用效率。这种方法迫使模型每次调用工具时都需从头重复整个问题的推理过程,造成资源浪费。

DeepSeek V3.2重磅发布:开源模型实现思考与工具调用融合,推理能力媲美GPT-5 DeepSeek-V3.2  开源AI模型 推理能力 工具调用 第5张

为此,他们专门为工具调用场景设计了一套「思考上下文管理机制」。

核心逻辑是:仅当用户发送新消息时,历史推理内容才会被清除。若只是追加了工具相关资讯(如工具输出结果),则保留之前的推理内容,使推理过程得以延续。

同时,当推理内容被移除时,工具调用历史及其返回结果仍保留在上下文中,确保模型在后续推理中能基于既有资讯进行判断。

由此,AI 便可实现:先进行一段思考,调用工具(如搜索、运行代码),查看结果后继续思考,再次调用工具,如此循环往复。且历史推理内容得以保留,无需每次调用工具后都重新开始思考。

官方示例生动展示了这一点:规划一个复杂的三天旅程,需满足各种预算限制、评分要求及非重复原则。例如第二天,若预订豪华酒店(800元以上),则午餐与晚餐总费用不得超过350元,餐厅评分均需高于4.0分,下午景点门票低于120元。若是中高档酒店(500至800元),则至少一家餐厅评分需达4.0分,景点门票低于180元。

此类任务需要 AI 反复查询酒店、餐厅、景点资讯,同时进行逻辑推理与约束检查。V3.2 能够边搜索边思考,最终给出完美方案。

DeepSeek V3.2重磅发布:开源模型实现思考与工具调用融合,推理能力媲美GPT-5 DeepSeek-V3.2  开源AI模型 推理能力 工具调用 第6张

但需注意一点:部分智能体框架(如 Roo Code 或 Terminus)通过用户消息模拟工具交互。由于其上下文管理方式,这类架构可能无法充分利用推理内容保留机制的优势。对于此类系统,官方建议优先使用「非思维模式」。

V3.2 的思考模式已支持 Claude Code,可在命令行工具中使用。然而,Cline、RooCode 等采用非标准工具调用的组件兼容性仍待优化,使用时需留意。

在实现「思考+工具调用」的过程中,DeepSeek 还实施了一项巧妙设计——「冷启动」。考虑到现有两类数据(带推理过程的非智能体数据,以及无推理过程的智能体任务数据),团队通过精心设计的提示词将两者结合。

他们认为,模型已具备较强的指令理解能力,只需通过明确指令,即可让模型在推理过程中自然整合工具执行。这使得「工具使用」能无缝融入「推理过程」,实现冷启动阶段的能力融合。

大规模智能体任务:AI 自我训练与进化

在提升大模型能力方面,DeepSeek 选择了一条独特路径——并非由人类教导AI,而是让AI自我训练。

他们构建了一条大规模的智能体任务流水线,创造了超过1800个虚拟环境与8万余项任务。这些任务的共同特点是:解答难度高,但验证结果易。换言之,题目复杂,答案正确与否易于核查。如此一来,AI 便可无限次地刷题、修改、复盘,持续强化推理能力。

DeepSeek V3.2重磅发布:开源模型实现思考与工具调用融合,推理能力媲美GPT-5 DeepSeek-V3.2  开源AI模型 推理能力 工具调用 第7张

在这条流水线上,不同智能体扮演着不同角色:有的负责从互联网挖掘知识、生成问题;有的负责产生多样答案;还有的负责验证答案准确性。仅通过验证的数据才会进入训练集。这使得模型越训越聪慧,且不易偏离正轨。

代码领域的处理更为硬核。DeepSeek 直接从 GitHub 抓取真实的 Issue 与修复补丁,让智能体搭建测试环境、安装依赖、运行测试用例,确保错误修复真实有效且未引入新问题。经过一轮轮自动化淬炼,模型在多种编程语言中获得了实战能力。

最后,是最令人惊叹的环节——通用智能体。它不仅能够解题,还能自动生成任务、工具与验证逻辑。给定一个任务类型,如旅行规划,它会自行搜集数据、生成工具、提升难度、迭代解法,直至形成完整的任务体系。最终,它创造了上千个环境与任务,真正实现了AI生成数据训练AI的闭环。

简而言之,DeepSeek 将训练过程从「人工喂养数据」转变为「AI创造数据、验证数据、借数据强化自身」。这不仅提升了模型的逻辑能力,更赋予AI一种前所未有的特质——自我进化。

测试成果如何?

DeepSeek V3.2重磅发布:开源模型实现思考与工具调用融合,推理能力媲美GPT-5 DeepSeek-V3.2  开源AI模型 推理能力 工具调用 第8张

在推理能力测试中,V3.2 在 MMLU-Pro、GPQA Diamond、LiveCodeBench 等多个基准测试中的表现可与 GPT-5 和 Kimi-k2-thinking 相媲美。而 Speciale 版本在这些测试中的得分则接近甚至超越 Gemini-3.0-Pro。

DeepSeek V3.2重磅发布:开源模型实现思考与工具调用融合,推理能力媲美GPT-5 DeepSeek-V3.2  开源AI模型 推理能力 工具调用 第9张

在智能体能力测试中,V3.2 在开源模型中达到了顶尖水平,大幅缩小了与闭源模型的差距。在 τ²-Bench 测试中,V3.2 让模型自身充当用户智能体,在航空类别获得63.8分,零售类别81.1分,电信类别96.2分。

DeepSeek V3.2重磅发布:开源模型实现思考与工具调用融合,推理能力媲美GPT-5 DeepSeek-V3.2  开源AI模型 推理能力 工具调用 第10张

对于 MCP 基准测试,团队采用函数调用格式。

测试中发现 V3.2 常进行冗余的自我验证操作,导致生成的操作轨迹过长。这种行为在 MCP-Mark GitHub 和 Playwright 评估等任务中,易使上下文长度超出128K限制,从而影响最终性能。

然而,通过引入上下文管理策略,可进一步提升模型表现。

即便存在此问题,V3.2 的整体表现仍显著优于当前所有开源模型。且这些基准测试中使用的环境与工具集,并未出现在模型的强化学习训练阶段,说明 V3.2 具备将推理策略泛化至「领域外智能体任务」的能力。

Speciale 版本的表现更为惊人。它通过支持更多推理 Token,取得了超越 Gemini-3.0-Pro 的性能。在未进行任何专项训练的前提下,便在2025年 IOI、ICPC 世界总决赛中达到金牌水平。

在 ICPC 世界总决赛中,Speciale 排名第2;在 IOI 中排名第10。且结合 DeepSeekMath-V2 的方法后,Speciale 在复杂数学证明任务中表现卓越,在2025年 IMO 和 CMO 中也达到金牌门槛。

DeepSeek V3.2重磅发布:开源模型实现思考与工具调用融合,推理能力媲美GPT-5 DeepSeek-V3.2  开源AI模型 推理能力 工具调用 第11张

官方评估的是 CMO 2025 的英文版本。IMO 2025 与 CMO 2025 的题目及模型推理代码已在 GitHub 上开源。

但 Speciale 的 Token 使用效率显著低于 Gemini-3.0-Pro。在训练官方版本 V3.2 时,团队引入了更严格的 Token 限制,以降低部署成本与响应延迟,在性能与效率间找到最佳平衡点。

为验证「AI训练AI」的有效性,团队进行了两组实验。

第一组从合成的智能体任务中随机抽取50个实例,让各类前沿模型解题,结果 V3.2-Exp 仅答对12%,闭源最强模型也只有62%,这表明这些任务绝非「文字游戏」,而是真正具有挑战性。

第二组实验更为严格,他们将 V3.2 的基础模型置于其中,仅使用合成任务进行强化学习,不引入链式思考或其他训练数据。最终结果显示:基于合成数据的大规模强化学习显著提升了模型在泛化任务上的表现。

DeepSeek V3.2重磅发布:开源模型实现思考与工具调用融合,推理能力媲美GPT-5 DeepSeek-V3.2  开源AI模型 推理能力 工具调用 第12张

那么 DeepSeek V3.2 是否仍有改进空间?

答案是肯定的。

官方坦承,V3.2 与顶级闭源模型(如 Gemini-3.0-Pro)之间仍存在一定差距。

训练总浮点运算量相对较少,导致 V3.2 在世界知识覆盖广度上稍显不足。团队计划在未来版本中通过扩大预训练阶段的计算资源投入,逐步弥补这一短板。

Token 效率也是一项挑战。与 Gemini-3.0-Pro 等模型相比,V3.2 往往需要更长的生成路径(即更多 Token)才能达到相近的输出质量。未来的工作重点之一,是优化模型推理链中的「智能密度」,提升效率。

在解决复杂任务方面,V3.2 仍不及最前沿模型,这也促使团队进一步优化底层基础模型与后训练方法。(这或许暗示着 V4 版本正在酝酿?)

DeepSeek V3.2重磅发布:开源模型实现思考与工具调用融合,推理能力媲美GPT-5 DeepSeek-V3.2  开源AI模型 推理能力 工具调用 第13张

但考虑到这是开源模型,V3.2 的表现已堪称惊艳。

从 R1 到如今的 V3.2,DeepSeek 持续证明一个事实:开源模型并非闭源模型的廉价替代品,而是能够真正接近甚至超越闭源模型的存在。

此次 V3.2 的发布,不仅在推理能力上追平了 GPT-5,更实现了「思考与工具调用」的完美融合,同时在世界级竞赛中斩获金牌。

尤为重要的是,这一切成果皆以开源形式呈现。

任何人都可将其部署至自有服务器,深入研究其架构,甚至基于此进行二次开发。人工智能的未来,或许真将属于开源世界。

技术报告已全面发布,感兴趣的读者可在 DeepSeek 官网或 HuggingFace 平台查阅完整论文:

  • DeepSeek-V3.2:https://huggingface.co/deepseek-ai/DeepSeek-V3.2
  • DeepSeek-V3.2-Speciale:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
  • 技术报告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf