当前位置:首页 > 科技资讯 > 正文

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,定理证明能力超人类

可自我验证的AI系统正逐步接近解决研究级数学问题的目标。

据智东西11月27日消息,今日DeepSeek正式开源了其“奥数金牌级”模型DeepSeekMath-V2,该模型在定理证明方面展现出卓越能力。

DeepSeekMath-V2在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中均斩获金牌水平成绩;在2024年普特南大学生数学竞赛(Putnam 2024)上取得接近满分(118/120分)的佳绩,远超人类最高90分的表现。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,定理证明能力超人类 DeepSeekMath-V2 定理证明 奥数金牌 自我验证AI 第1张

DeepSeekMath-V2在各项数学竞赛中的成绩表现

如下对比图所示,DeepSeekMath-V2以10%的优势领先于谷歌的IMO金奖模型DeepThink。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,定理证明能力超人类 DeepSeekMath-V2 定理证明 奥数金牌 自我验证AI 第2张

DeepSeekMath-V2在IMO-ProofBench测评中的表现

上述成果表明,自我验证的数学推理是一个极具前景的研究方向,有望推动更强大数学AI系统的诞生。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,定理证明能力超人类 DeepSeekMath-V2 定理证明 奥数金牌 自我验证AI 第3张

  • Hugging Face地址: https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
  • 论文地址: https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

按照惯例,DeepSeek新开源模型通常会直接上线至DeepSeek平台,我们第一时间进行了实测体验。

首先让DeepSeek证明一道基础题“证明根号2为无理数”,模型迅速给出了正确推导。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,定理证明能力超人类 DeepSeekMath-V2 定理证明 奥数金牌 自我验证AI 第4张

当提问“证明奇数和偶数哪个多?”时,DeepSeek同样给出了完整的证明过程和答案,该证明过程通俗易懂。当然,更高难度的奥数级证明将更为复杂,感兴趣的读者可以进一步测试体验。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,定理证明能力超人类 DeepSeekMath-V2 定理证明 奥数金牌 自我验证AI 第5张

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,定理证明能力超人类 DeepSeekMath-V2 定理证明 奥数金牌 自我验证AI 第6张

接下来深入模型研发细节,结合论文内容分析。现有研究表明,在数学推理领域,传统强化学习(RL)方法足以让大模型在以最终答案为导向的竞赛(如AIME和HMMT)中取得高分。然而这种奖励机制存在两大根本局限:

首先,它无法可靠地衡量推理的正确性,模型可能通过错误逻辑或偶然巧合得出正确答案。

其次,该方法不适用于定理证明任务,因为这类问题往往无需生成数值答案,严谨的推导过程才是关键。

为此,DeepSeek团队致力于在大语言模型中培养证明验证能力,基于DeepSeek-V3.2-Exp-Base构建了DeepSeekMath-V2。他们让模型清晰理解奖励函数,并通过有意识的推理而非盲目试错来最大化奖励。

团队制定了针对证明评估的高级评分标准,旨在训练一个能够依据该标准对证明进行打分、模拟数学专家评审过程的验证器。以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程采用两个奖励组件:格式奖励和分数奖励。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,定理证明能力超人类 DeepSeekMath-V2 定理证明 奥数金牌 自我验证AI 第7张

随后是构建强化学习数据集。DeepSeek利用17503道竞赛题目、DeepSeek-V3.2-Exp-Thinking生成的候选证明以及带有专家评分的随机抽取证明样本,构建了初始强化学习训练数据集。

接着设定强化学习目标及训练验证器的目标。具体以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,同样使用格式奖励和分数奖励两个组件,并通过特定函数完成验证器的强化学习训练。

为防止训练中“验证器通过预测正确分数但虚构不存在问题来获取全部奖励”的漏洞,DeepSeek引入了二次评估流程——元验证(meta-verification),以提升验证器识别问题的忠实度。

在证明生成阶段,DeepSeek训练了证明生成器,并通过自我验证增强推理能力,解决模型在一次性生成并分析自身证明时“生成器不顾外部验证器判错而宣称证明正确”的问题。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,定理证明能力超人类 DeepSeekMath-V2 定理证明 奥数金牌 自我验证AI 第8张

最终,DeepSeek的证明验证器和生成器形成了协同进化循环:验证器推动生成器改进,而生成器的进步又会生成新的证明,对验证器现有能力构成挑战,这些挑战进而成为增强验证器自身的宝贵训练数据。

简言之,DeepSeekMath-V2模型中的验证器能够逐步检查证明过程,生成器则据此修正自身错误。

从实验结果看,在单步生成结果评估中(如图1所示),对于CNML级别的所有问题类别(代数、几何、数论、组合数学和不等式),DeepSeekMath-V2持续优于GPT-5-Thinking-High和Gemini 2.5-Pro,展现出更全面的定理证明能力。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,定理证明能力超人类 DeepSeekMath-V2 定理证明 奥数金牌 自我验证AI 第9张

在带自我验证的顺序优化中,对2024 IMO备选题进行连续优化后,证明质量显著提升。自选的最佳证明相比线程平均获得更高的验证分数,表明生成器能准确评估证明质量。这些结果证实,生成器可可靠区分高质量证明与有缺陷证明,并利用这种自我认知系统性地改进数学推理能力。

在高计算量探索中,DeepSeek扩大验证和生成计算规模,其方法解决了2025 IMO 6道题中的5道,以及2024 CMO的4道题,另有1道题获得部分分数,在这两项顶尖高中竞赛中均达到金牌水平。在基础集上优于DeepMind的DeepThink(IMO金牌水平),在高级集上保持竞争力,且大幅超越所有其他基线模型。

但团队也指出,最困难的IMO级别问题对模型而言仍具挑战性。

值得注意的是,对于未完全解决的问题,DeepSeek的生成器通常能在证明过程中识别真正的问题点,而完全解决的问题则能通过所有64次验证尝试。这说明我们能够成功训练基于大语言模型的验证器,来评估此前被认为难以自动验证的证明。通过在验证器指导下增加测试时计算量,DeepSeek模型能够解决那些需要人类竞争者花费数小时才能攻克的难题。

结语:可自我验证的AI系统,离解决研究级数学问题更进一步

总的来说,DeepSeek打造了一个既能生成又能验证数学证明的模型。团队突破了基于最终答案的奖励机制局限,迈向可自我验证的数学推理新阶段。

这项工作证实,大语言模型能够培养出针对复杂推理任务的有意义的自我评估能力。尽管仍面临重大挑战,这一研究方向有望为创建可自我验证的AI系统以解决研究级数学问题做出重要贡献。