当前位置:首页 > 科技资讯 > 正文

DeepSeek-Math-V2:开启自我验证数学推理新纪元

推理模型实现重大突破,DeepSeek开创了自我验证的数学推理新方向。

鲸鱼模型强势回归!

近日,DeepSeek在Hugging Face平台悄然发布了一个全新模型:DeepSeek-Math-V2。

DeepSeek-Math-V2:开启自我验证数学推理新纪元 DeepSeek-Math-V2 自我验证 数学推理 定理证明 第1张

顾名思义,这是一个专注于数学领域的模型。其前代版本——DeepSeek-Math-7b发布于一年半以前,当时仅以7B参数量就达到了与GPT-4和Gemini-Ultra相媲美的性能。相关论文首次引入GRPO方法,显著提升了数学推理能力。

DeepSeek-Math-V2:开启自我验证数学推理新纪元 DeepSeek-Math-V2 自我验证 数学推理 定理证明 第2张

时隔一年半,基于DeepSeek-V3.2-Exp-Base开发的DeepSeek-Math-V2带来了哪些新突破?

DeepSeek官方表示,其性能已超越Gemini DeepThink,达到了国际数学奥林匹克(IMO)金牌级水平。

DeepSeek-Math-V2:开启自我验证数学推理新纪元 DeepSeek-Math-V2 自我验证 数学推理 定理证明 第3张

  • 论文标题:DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
  • 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
  • 论文地址:https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
  • 核心作者:邵智宏、Yuxiang Luo、Chengda Lu、Z.Z. Ren

论文开篇指出,当前AI数学推理研究存在局限:过度依赖最终答案的正确性作为奖励信号,一味追求答案准确度。

这种方法虽能在AIME和HMMT等基准上取得高分甚至饱和性能,但DeepSeek认为它并未触及核心问题:正确答案未必意味着推理过程正确。此外,许多数学任务(如定理证明)需要严谨的逐步推导,而非仅仅数值答案,这使得基于最终答案的奖励机制失效。

为了突破深度推理的极限,DeepSeek强调必须验证数学推理的全面性与严谨性。

团队指出:“自我验证在扩展测试时的计算规模时尤为重要,特别是对于没有已知解的开放性问题。”

为实现可自我验证的数学推理,DeepSeek研究了如何训练一个准确可靠的基于大语言模型的定理证明验证器。随后,他们利用该验证器作为奖励模型来训练证明生成器,激励生成器在最终完成证明前尽可能发现并解决自身证明中的漏洞。

为在生成器能力增强时保持生成-验证差距,DeepSeek提出扩展验证计算能力,以自动标注新的难以验证的证明,从而生成训练数据以持续提升验证器性能。

简而言之,DeepSeek这篇论文的核心目标不仅是让AI做对题目,更是让AI“既会解题,又能自我检查,并能诚实指出自身错误”。

为实现这一目标,他们设计了一套由三个关键角色组成的系统,可用“学生—老师—督导”的类比来理解:

首先,培养合格的“阅卷老师”(证明验证器)。

以往训练AI数学模型,通常只关注最终答案是否正确。但在高等数学证明题(如奥数)中,过程的严谨性比答案更重要。因此,DeepSeek团队首先训练了一个专用验证器(Verifier),即“阅卷老师”。这位老师不仅判断对错,还学会像人类专家一样将证明过程分为三档:

  • 1分:完美无缺,逻辑严密。
  • 0.5分:大体正确,但存在小瑕疵或细节遗漏。
  • 0分:存在根本性逻辑错误或严重缺陷。

不仅评分,还要提供评语:模型被要求在打分前,先撰写一段分析,指出证明的亮点与问题所在。

接下来,为老师配备“督导”(元验证机制)。

DeepSeek发现一个问题:阅卷老师有时会误判,可能给出低分,但指出的错误实际上并不存在(即产生幻觉)。

为解决此问题,他们引入了元验证(Meta-Verification)机制,相当于为老师配备了一位“督导”。督导的任务不是审查考卷,而是专门检查老师撰写的“评语”是否合理。这实现了双重确认:督导会核查老师指出的错误是否真实存在,以及扣分是否符合逻辑。通过训练模型同时担任老师和督导,AI评估证明的准确性与可信度大幅提升。

然后,培养具备“自省”能力的学生(带自我验证的证明生成器)。

有了完善的阅卷系统,接下来是训练解题的“学生”(生成器)。这里有一个关键创新:诚实奖励机制。也就是说,模型不仅解题,还需进行自评:在输出解题过程后,必须立即附上一段“自我评价”,为自己打分(0、0.5或1分)。

系统对诚实行为进行奖励:

  • 如果模型解题错误,但在自评中诚实指出自身错误,它会获得奖励。
  • 相反,如果解题错误却声称正确(盲目自信),或试图“蒙混过关”,则会受到惩罚(无法获得高奖励)。

此举旨在迫使AI在输出答案前进行深度思考,尝试发现并修正自身错误,直到确信解答正确为止。

最后,形成自动化闭环(协同进化)。

人类专家无法为成千上万道奥数题提供详细步骤评分,因此DeepSeek设计了一套自动化流程,让系统通过“左右互搏”实现自我进化:

  • 海量生成:让“学生”对同一道题生成多种解法。
  • 集体投票:让“老师”对这些解法进行多次评估。若大多数评估认为某个解法有问题,则判定为有问题;若未发现任何漏洞,才判定为正确。
  • 以战养战:通过这种方式,系统自动筛选出那些难以评判或难以正确解答的题目,转化为新教材,重新训练“老师”和“学生”。随着“学生”解题能力增强,“老师”的评判眼光也愈发敏锐。

总之,DeepSeekMath-V2的方法本质上是从“结果导向”转向“过程导向”。它不依赖海量数学题答案数据,而是通过教会AI像数学家一样严谨地审查证明过程(包括自我审查),从而在无人干预的情况下,持续提升解决高难度数学证明题的能力。

最终,他们得到了DeepSeekMath-V2模型,其展现出强大的定理证明能力:在IMO 2025和CMO 2024上取得金牌级成绩,并在Putnam 2024中以扩展测试计算实现了接近满分的118/120。

DeepSeek-Math-V2:开启自我验证数学推理新纪元 DeepSeek-Math-V2 自我验证 数学推理 定理证明 第4张

下图展示了DeepSeekMath-V2在IMO-ProofBench基准(IMO Bench的子集,含60道证明题)上的表现。在Basic基准上,DeepSeekMath-V2不仅远超其他模型,甚至达到了近99%的惊人高分。而在更难的Advanced子集上,DeepSeekMath-V2略逊于Gemini Deep Think (IMO Gold)。

DeepSeek表示:“虽然仍有大量工作需推进,但这些结果表明,可自我验证的数学推理是一个可行的研究方向,有望推动更强大数学AI系统的发展。”

这一自我验证的数学推理框架突破了传统强化学习(RL)的限制,使模型不再依赖最终答案正确性作为唯一奖励,而是关注推理过程的严谨性。此外,DeepSeekMath-V2中验证器-生成器协同的双向改进循环带来了全面而严谨的数学推理能力,显著减少了大模型幻觉。

论文中提供了更多技术细节,感兴趣者可深入阅读。