当前位置:首页 > 科技资讯 > 正文

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,推动可自我验证AI系统发展

可自我验证的人工智能系统,正逐步迈向解决研究级数学问题的目标。

据智东西11月27日消息,DeepSeek近日推出了被誉为“奥数金牌级”的模型DeepSeekMath-V2,该模型展现出卓越的定理证明能力

DeepSeekMath-V2在2025年国际数学奥林匹克竞赛(IMO 2025)及2024年中国数学奥林匹克竞赛(CMO 2024)中均取得了金牌水准的优异成绩;同时,在2024年普特南大学生数学竞赛(Putnam 2024)上获得了接近满分(118/120分)的高分,超越了人类参赛者的最高90分纪录。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,推动可自我验证AI系统发展 DeepSeekMath-V2 数学定理证明 自我验证AI 国际数学奥林匹克竞赛 第1张

DeepSeekMath-V2在各类数学竞赛中的表现图示

如下图所示,DeepSeekMath-V2以10%的显著优势超越了谷歌的IMO金奖模型DeepThink。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,推动可自我验证AI系统发展 DeepSeekMath-V2 数学定理证明 自我验证AI 国际数学奥林匹克竞赛 第2张

DeepSeekMath-V2在IMO-ProofBench基准测试中的对比结果

上述成果表明,自验证数学推理是一个具有潜力的研究方向,有望助力构建更强大的数学人工智能系统。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,推动可自我验证AI系统发展 DeepSeekMath-V2 数学定理证明 自我验证AI 国际数学奥林匹克竞赛 第3张

  • Hugging Face地址: https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
  • 论文地址: https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

按照惯例,DeepSeek往往会将新开源的模型迅速集成至其平台,我们第一时间进行了体验测试。

首先,让DeepSeek证明一道基础题目“证明根号2为无理数”,模型迅速给出了准确论证。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,推动可自我验证AI系统发展 DeepSeekMath-V2 数学定理证明 自我验证AI 国际数学奥林匹克竞赛 第4张

当输入“证明奇数和偶数哪个多?”这一命题时,DeepSeek同样给出了正确的证明过程与结论,该论证易于理解。当然,奥数级别的题目更为复杂,欢迎具备相关知识的读者进一步测试体验。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,推动可自我验证AI系统发展 DeepSeekMath-V2 数学定理证明 自我验证AI 国际数学奥林匹克竞赛 第5张

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,推动可自我验证AI系统发展 DeepSeekMath-V2 数学定理证明 自我验证AI 国际数学奥林匹克竞赛 第6张

回归模型研发背后的技术问题,我们来详细审视论文内容。现有研究表明,在数学推理领域,强化学习(RL)传统方法已能使大模型在侧重最终答案的竞赛(如AIME和HMMT)中达到较高水平。然而,这种奖励机制存在两个根本局限:

首先,传统方法无法可靠表征推理的正确性,模型可能通过有缺陷的逻辑或偶然错误得出正确答案。

其次,它不适用于定理证明任务,此类任务可能无需生成数值答案,而严谨推导才是核心目标。

为此,DeepSeek建议在大型语言模型中发展证明验证能力,基于DeepSeek-V3.2-Exp-Base开发了DeepSeekMath-V2。他们使模型明确知晓其奖励函数,并能通过有意识的推理而非盲目试错来最大化奖励。

DeepSeek制定了用于证明评估的高级评分标准,旨在训练一个验证器,使其能依据这些标准模拟数学专家的评估过程。以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程使用了格式奖励和分数奖励两个组件。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,推动可自我验证AI系统发展 DeepSeekMath-V2 数学定理证明 自我验证AI 国际数学奥林匹克竞赛 第7张

随后是构建强化学习数据集。DeepSeek基于17503道竞赛题目、DeepSeek-V3.2-Exp-Thinking生成的候选证明以及带专家评分的随机抽样证明样本,构建了初始强化学习训练数据集。

紧接着,设定了强化学习目标及训练验证器的强化学习目标。具体是以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程融合了格式奖励和分数奖励。随后通过特定函数完成训练验证器的强化学习目标。

为解决训练中“验证器可能通过预测正确分数同时虚构不存在的问题来获取全部奖励”的漏洞,DeepSeek引入了二次评估过程——元验证(meta-verification),从而提升验证器识别问题的忠实度。

在证明生成阶段,DeepSeek进行了证明生成器的训练,并通过自我验证增强推理能力,解决了模型被要求一次性生成并分析自身证明时“生成器忽视外部验证器判错而宣称证明正确”的问题。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,推动可自我验证AI系统发展 DeepSeekMath-V2 数学定理证明 自我验证AI 国际数学奥林匹克竞赛 第8张

最终,DeepSeek证明验证器和生成器形成了协同循环:验证器改进生成器,而生成器的进步又产生新的证明,这些证明对验证器当前能力构成挑战,进而成为增强验证器的宝贵训练数据。

简言之,DeepSeekMath-V2模型中的验证器能逐步检查证明过程,生成器则会自行修正错误。

从实验结果看,在单步生成结果评估中,如图1所示,在CNML级别的所有问题类别(代数、几何、数论、组合数学和不等式)中,DeepSeekMath-V2始终优于GPT-5-Thinking-High和Gemini 2.5-Pro,展现出各领域更卓越的定理证明能力。

DeepSeek开源奥数金牌级模型DeepSeekMath-V2,推动可自我验证AI系统发展 DeepSeekMath-V2 数学定理证明 自我验证AI 国际数学奥林匹克竞赛 第9张

在带自我验证的顺序优化中,对2024 IMO备选题进行连续优化后,证明质量显著提升。自选的最佳证明比线程平均值获得了明显更高的验证分数,这表明生成器能够准确评估证明质量。这些结果证实,其生成器能可靠区分高质量证明和有缺陷的证明,并利用这种自我认知系统性地改进数学推理能力。

在高计算量探索中,DeepSeek扩大了验证和生成计算的规模,他们的方法解决了2025 IMO的6道题中的5道,以及2024 CMO的4道题,另一道题获得部分分数,在这两项顶尖高中竞赛中均达到金牌水平,在基础集上优于DeepMind的DeepThink(IMO金牌水平),在高级集上保持竞争力,同时大幅领先所有其他基线模型。

但DeepSeek指出,最困难的IMO级别问题对其模型而言仍具挑战性。

值得注意的是,对于未完全解决的问题,DeepSeek的生成器通常能在证明过程中识别出真正的问题,而完全解决的问题则能通过所有64次验证尝试。这表明,他们成功训练了基于大语言模型的验证器,以评估那些此前被认为难以自动验证的证明。通过在验证器指导下增加测试时的计算量,DeepSeek的模型能够解决需要人类竞争者花费数小时才能解决的问题。

结语:可自我验证的AI系统,离解决研究级数学问题更进一步

总体而言,DeepSeek提出了一个既能生成又能验证数学证明的模型。团队突破了基于最终答案的奖励机制的局限,迈向了可自我验证的数学推理。

这项工作证实,大语言模型能够培养出针对复杂推理任务的有意义的自我评估能力。尽管仍存在重大挑战,这一研究方向有望为创建可自我验证的AI系统以解决研究级数学问题这一目标做出贡献。