当前位置:首页 > 科技资讯 > 正文

DeepSeek发布自我验证数学推理模型DeepSeek-Math-V2,在IMO测试中达到金牌级水平

推理模型迎来新突破,DeepSeek 在自我验证数学推理领域取得重大进展。

The whale has returned!

就在近日,DeepSeek 低调地在 Hugging Face 平台上发布了其最新模型:DeepSeek-Math-V2。

DeepSeek发布自我验证数学推理模型DeepSeek-Math-V2,在IMO测试中达到金牌级水平 DeepSeek-Math-V2 自我验证 数学推理 IMO金牌 第1张

正如其名,这是一款专注于数学领域的推理模型。其前代版本 DeepSeek-Math-7b 发布已超一年,当时凭借仅 7B 的参数规模,便实现了与 GPT-4 及 Gemini-Ultra 相当的性能。该版本的论文首次提出了 GRPO 方法,大幅增强了模型的数学推理能力。

DeepSeek发布自我验证数学推理模型DeepSeek-Math-V2,在IMO测试中达到金牌级水平 DeepSeek-Math-V2 自我验证 数学推理 IMO金牌 第2张

时隔一年半,基于 DeepSeek-V3.2-Exp-Base 打造的 DeepSeek-Math-V2 带来了哪些新的突破?

据 DeepSeek 官方介绍,该模型的性能已超越 Gemini DeepThink,达到了国际数学奥林匹克(IMO)金牌得主的水平。

DeepSeek发布自我验证数学推理模型DeepSeek-Math-V2,在IMO测试中达到金牌级水平 DeepSeek-Math-V2 自我验证 数学推理 IMO金牌 第3张

  • 论文题目:DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
  • 模型链接:https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
  • 论文下载:https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
  • 主要作者:邵智宏、Yuxiang Luo、Chengda Lu、Z.Z. Ren

论文在开篇即指出当前人工智能在数学推理研究中的局限性:以最终答案的正确性作为奖励信号,过度聚焦于答案的准确性。

尽管这种方法能使推理模型在 AIME、HMMT 等基准测试中取得优异甚至饱和的成绩,但 DeepSeek 认为这并未触及核心问题:答案正确并不能确保推理过程的严谨性。同时,诸多数学任务,如定理证明,要求的是严格的逐步推导,而非仅数值结果,这使得单纯依赖最终答案的奖励机制难以适用。

为挑战深度推理的极限,DeepSeek 主张必须对数学推理的全面性与严谨性进行验证。

他们强调:「自我验证在扩展测试时计算规模方面尤为关键,尤其是在面对没有已知解的开放性问题上。」

为实现可自我验证的数学推理,DeepSeek 探索了如何训练一个准确且可信的、基于大语言模型的定理证明验证器。随后,他们利用该验证器作为奖励模型,训练证明生成器,鼓励生成器在完成证明之前尽可能多地发现并修正自身证明中的缺陷。

为了在生成器能力提升的同时保持生成与验证之间的差距,DeepSeek 提出扩展验证的计算能力,自动标注新的难以验证的证明,进而生成训练数据以持续提升验证器的性能。

简而言之,DeepSeek 这篇论文的核心目标已超越单纯的解题正确,而是让 AI 具备「不仅会解题,还能自我审视,甚至诚实面对自身错误」的能力。

为实现此目标,他们构建了一套包含三个关键角色的系统,我们可以借用「学生-老师-督导」的比喻来理解:

第一步,培养合格的「阅卷老师」(Proof Verification)。

以往训练 AI 数学模型的模式,往往只关注最终答案的正确与否。但在高等数学证明题(如奥数)中,过程的严谨性比答案更重要。因此,DeepSeek 团队首先训练了一个专门的验证器(Verifier),即「阅卷老师」。这位老师不再简单地打钩或打叉,而是像人类专家一样,将证明过程分为三个档次:

  • 1 分:完美无瑕,逻辑严谨。
  • 0.5 分:基本正确,但存在小瑕疵或细节疏漏。
  • 0 分:存在根本性逻辑错误或严重缺失。

不仅给出分数,还需撰写评语:模型在打分前需先进行分析,指出证明中的优点与问题所在。

接下来,为老师配备一名「督导」(Meta-Verification)。

DeepSeek 发现了一个问题:阅卷老师有时会错误地扣分,即它可能给出低分,但所指出的错误实际上并不存在(即产生了幻觉)。

为解决这一问题,他们引入了元验证(Meta-Verification)机制,即为老师配备了一名「督导」。督导的职责并非直接审阅考卷,而是专门检查老师撰写的「评语」是否合理。通过这种双重确认,督导会核实老师指出的错误是否真实存在,以及扣分是否符合逻辑。其效果是,通过训练模型兼具老师和督导的角色,AI 对证明的评估准确性和可信度得到了显著提升。

随后,培养具备「自省」能力的学生(Proof Generation with Self-Verification)。

有了完善的阅卷系统,接下来便是训练解题的「学生」(生成器)。这里引入了一个关键创新:诚实奖励机制。即,学生不仅需要解题,还需进行自我评估:模型在输出解题过程后,必须立即附上一段「自我评价」,为自己打分(0、0.5 或 1)。

模型将对诚实行为给予奖励:

  • 如果模型解题错误,但在自评中诚实指出了自己的错误,它将获得奖励。
  • 反之,如果它解题错误却宣称自己正确(盲目自信),或试图「蒙混过关」,则将受到惩罚(即无法获得高奖励)。

此机制旨在迫使 AI 在输出答案前进行深度思考,努力发现并修正自己的错误,直至它确信自己真正做对为止。

最终,形成自动化闭环(Synergy)。

由于人类专家无法为成千上万道奥数题提供详细的步骤评分,DeepSeek 设计了一套自动化流程,让系统通过「左右互博」实现自我进化:

  • 海量生成:让「学生」针对同一题目生成多种解法。
  • 集体投票:让「老师」对这些解法进行多次评估。若多数评估认为某解法存在缺陷,则判定为有问题;若未发现任何漏洞,则判定为正确。
  • 以战养战:通过此过程,系统自动筛选出难以判卷或难以解决的题目,将其作为新的训练材料,重新训练「老师」和「学生」。如此,随着「学生」解题能力的增强,「老师」的评判眼光也愈发狀利。

总之,DeepSeekMath-V2 的方法本质上实现了从「结果导向」到「过程导向」的转变。它并不依赖海量的数学题答案数据,而是通过教会 AI 如何像数学家一样严谨地审视证明过程(包括自我审查),从而在没有人类干预的情况下,持续提升解决高难度数学证明题的能力。

最终诞生的 DeepSeekMath-V2 模型展现出强大的定理证明能力:在 IMO 2025 和 CMO 2024 中均取得金牌级成绩,在 Putnam 2024 中通过扩展测试计算取得了近乎满分的 118/120。

DeepSeek发布自我验证数学推理模型DeepSeek-Math-V2,在IMO测试中达到金牌级水平 DeepSeek-Math-V2 自我验证 数学推理 IMO金牌 第4张

下图展示了 DeepSeekMath-V2 在 IMO-ProofBench 基准(IMO Bench 的子集,包含 60 道证明题)上的表现。可以看到,在其中的 Basic 基准上,DeepSeekMath-V2 不仅遥遥领先于其他模型,更取得了接近 99% 的惊人高分。而在难度更高的 Advanced 子集上,DeepSeekMath-V2 略低于 Gemini Deep Think (IMO Gold)。

DeepSeek发布自我验证数学推理模型DeepSeek-Math-V2,在IMO测试中达到金牌级水平 DeepSeek-Math-V2 自我验证 数学推理 IMO金牌 第5张

DeepSeek 表示:「尽管仍有大量工作需要推进,但这些结果表明,可自我验证的数学推理是一个可行的研究方向,有望推动更强大的数学 AI 系统的发展。」

这一自我验证的数学推理框架可以说突破了传统强化学习(RL)的局限,使模型不再仅以最终答案正确性为唯一奖励,而是关注推理过程的严谨性。此外,DeepSeekMath-V2 中验证器与生成器协同的双向改进循环,带来了全面而严谨的数学推理能力,大幅减少了大型语言模型的幻觉现象。

在论文中,DeepSeek 还介绍了更多技术细节,感兴趣的读者可深入阅读。