当前位置:首页 > 科技资讯 > 正文

DeepSeekMath-V2:开源AI在数学奥林匹克竞赛中夺得金牌

在经历一段时期的沉寂后,DeepSeek强势回归!今日,DeepSeekMath-V2模型隆重登场,成功斩获IMO 2025金牌,其能力比肩乃至超越谷歌的IMO金牌模型,开源人工智能领域实现重大突破。

DeepSeek再次闪耀登场!

近期,DeepSeek正式发布DeepSeekMath-V2新型号,一举夺得IMO 2025金牌荣誉。

核心亮点在于,这是首个“开源的IMO金牌模型”。

DeepSeekMath-V2:开源AI在数学奥林匹克竞赛中夺得金牌 DeepSeekMath-V2  IMO金牌 开源AI 自验证 第1张

该模型构建于DeepSeek V3.2 Exp Base基础之上。

目前,已公开宣布获得金牌的两大模型,一款来自谷歌Gemini Deep Think,另一款则源于OpenAI的内部模型。

在IMO-ProofBench评估中,DeepSeekMath-V2展示了卓越的定理证明实力:

IMO 2025:成功解答5道题目(总计6题),达到金牌标准;

CMO 2024(中国数学奥林匹克):同样达到金牌水平;

Putnam 2024:取得118分接近满分(120分),超越人类参赛者最高分(90分)。

DeepSeekMath-V2:开源AI在数学奥林匹克竞赛中夺得金牌 DeepSeekMath-V2  IMO金牌 开源AI 自验证 第2张

此外,在ProofBench-Basic基准测试上,DeepSeekMath-V2的表现力压谷歌金牌模型——Gemini Deep Think;在ProofBench-Advanced上则紧追谷歌。

DeepSeekMath-V2:开源AI在数学奥林匹克竞赛中夺得金牌 DeepSeekMath-V2  IMO金牌 开源AI 自验证 第3张

研究论文中,团队训练了一个基于LLM的验证器作为奖励函数,并借此训练模型以自主求解问题。

同时,他们扩展了验证器计算资源,以标注更复杂的证明,进一步优化验证器性能。

该方法极为精巧,能有效缩小生成与验证之间的鸿沟。

DeepSeekMath-V2:开源AI在数学奥林匹克竞赛中夺得金牌 DeepSeekMath-V2  IMO金牌 开源AI 自验证 第4张

实证结果表明,“可验证的数学推理”是未来一条可行的发展路径。

DeepSeekMath-V2使“自验证”成为核心优势

DeepSeekMath-V2的相关论文也已于GitHub同步公开。

DeepSeekMath-V2:开源AI在数学奥林匹克竞赛中夺得金牌 DeepSeekMath-V2  IMO金牌 开源AI 自验证 第5张

DeepSeek最新推出的DeepSeekMath-V2带来的核心创新是:自验证(Self-Verification)

这不仅令其在顶级数学竞赛中横扫人类顶尖选手,更关键的是,它指明了通向更高级AI的一条必经之路——掌握自我反思能力

为何仅关注结果存在局限

以往,训练AI解决数学题的方法较为直接:提供题目,若其计算结果与标准答案匹配,则给予奖励。

这在简单计算题(如AIME竞赛)中效果显著。

但到了数学领域的巅峰——国际数学奥林匹克(IMO)这一层级,该方法便完全失效。

因为IMO题目通常不提供简单数值答案,而是要求撰写一段逻辑严密的证明过程

过去的AI在此常沦为“高级忽悠”,它能编织一套看似专业的数学术语,最终强行得出结论。即使可能碰巧结果正确,但论证过程漏洞百出。

DeepSeekMath-V2决心从根本上革新规则,不仅要奖励正确答案,更要激励严谨的“自我审查”过程。

核心机制:三位一体的协同系统

为实现这种“自我反思”,DeepSeek设计了一套精密的“协同制衡”系统,犹如在AI思维中安置三个角色:

1.“解题者”(Generator,证明生成器):

负责解答题目并撰写证明。

但与以往不同,它被训练成不仅要输出答案,还需附上一段“自我评估”。它必须坦诚表示:“此步骤我存有疑虑,可能存在问题。”

研究团队巧妙设定了奖励机制,产生了以下激励效果:

  • 诚实面对错误,比“强行宣称正确”更为有利。
  • 产出真正正确的证明,并精准判断其严谨程度,可获得最高奖励。
  • 对生成器而言,最优策略是:在最终提交前,发现并修正尽可能多的缺陷。

2.“严格评审”(Verifier,证明验证器):

这是DeepSeek专门训练的一个评分模型。它不关注答案正确与否,而是专注审视证明过程寻找漏洞。它会像资深阅卷官那样,为证明评分(0分、0.5分、1分),并指明具体逻辑错误。

  • 1分:证明完整且严谨,所有关键推理步骤均有清晰、充分的论证;
  • 0.5分:整体思路正确,但在细节上存在轻微错误或省略部分论证;
  • 0分:存在致命逻辑错误或关键缺口,导致证明本质上不成立。

3.“评审监督员”(Meta-Verifier,元验证器):

这是最为精妙的一环。因为“评审”也可能出错,或为省事而敷衍评判。

于是DeepSeek引入了“元验证”机制,专门核查“评审”是否在胡乱挑刺。若“评审”指出了一个不存在的错误,它将被“监督员”纠正。

“元验证器”负责检查验证器提供的分析,包括:

1. 验证器指出的问题是否真实存在于原证明中;

2. 这些问题是否足以合理支持其给出的评分,且符合既定评分标准。

使用元验证器评估验证器输出分析的平均质量分数,从0.85提升至0.96,同时保持了原有的评分准确率。

在三者协同下,DeepSeekMath-V2甚至能在没有标准答案的情况下,自主出题、自行解答、自我批改、重新演算

首先,证明验证器与证明生成器之间形成了良性的“闭环”:

  • 验证器为生成器提供奖励信号,从而持续提升生成器的证明能力;
  • 随着生成器水平提高,它会产生越来越“棘手”的新证明,这些证明反过来又会暴露验证器尚未覆盖的弱点。

尤其是那些“验证器初次尝试未能发现问题”的证明样本,对进一步训练验证器极具价值。

为高效获取新证明的正确性标签,研究团队设计了自动化标签生成流程:

DeepSeekMath-V2:开源AI在数学奥林匹克竞赛中夺得金牌 DeepSeekMath-V2  IMO金牌 开源AI 自验证 第6张

在最后两轮训练迭代中,这条全自动标注流水线已完全取代人工标注。后续质量检查表明,自动生成的标签与人类专家判断高度一致。

顶尖对决:DeepSeek 对阵 Gemini

在此领域,DeepSeek并非孤军奋战。

谷歌DeepMind的Gemini Deep Think同样是刚达到IMO金牌水平的顶尖模型。

两者的对比颇具意味:

  • DeepMind如同资源无尽的贵族,其实力毋庸置疑,在某些高级基准测试(如IMO-ProofBench Advanced)上仍保持领先。
  • DeepSeek则似半路杀出的天才新星。依据DeepSeek论文,其V2模型在基础测试集(ProofBench Basic)上已反超Gemini Deep Think,并在公开竞赛题目上展现出惊人统治力。

DeepSeekMath-V2:开源AI在数学奥林匹克竞赛中夺得金牌 DeepSeekMath-V2  IMO金牌 开源AI 自验证 第7张

更重要的是,DeepSeek将此技术路径开源并详细公开了训练方法。

这为全球AI研究者提示:通往AGI的道路上,自验证可能比单纯堆积计算资源更为关键。

直追谷歌OpenAI,开源IMO模型取得胜利

这一惊人成绩背后,是DeepSeekMath-V2在实验中展现出的某种“反直觉”进化特质。

“一次成功”的能力:全面领先GPT-5与Gemini

若剥离所有复杂的反复思考与验证过程,仅考察模型的“第一直觉”——即所谓的One-Shot能力,DeepSeekMath-V2依然表现出统治级实力。

研究团队构建了一个包含代数、几何、数论、组合和不等式五大类难题的内部测试集CNML(难度对标中国高中数学联赛)。

在此竞技场中,DeepSeekMath-V2与当前市面上最强的两大推理模型——OpenAI的GPT-5-Thinking-High和谷歌DeepMind的Gemini 2.5-Pro展开了正面交锋。

结果如下所示:

DeepSeekMath-V2:开源AI在数学奥林匹克竞赛中夺得金牌 DeepSeekMath-V2  IMO金牌 开源AI 自验证 第8张

DeepSeekMath-V2并非险胜,而是全面胜出

  • 代数:大幅超越GPT-5与Gemini;
  • 几何:得分近乎Gemini 2.5-Pro的三倍;
  • 数论与组合:同样稳居第一梯队。

这表明,即便不给予模型“多思考片刻”的机会,其基础能力已极为强大。

进化的关键:促使模型“多次思考”

真正令DeepSeekMath-V2脱颖而出的,是其在连续修正实验中的表现。

面对IMO候选题(Shortlist)级别的难题时,模型往往无法一次性写出完美证明。

实验显示,若允许模型进行“自我验证”——即生成答案后,自行挑刺,随后带着问题重新生成,奇迹便会出现:

  • 初始状态(迭代1次):模型的平均得分为0.15。
  • 反复思考(迭代8次):当允许模型最多进行8次“自我修正”后,证明的质量分数飙升至0.27。

DeepSeekMath-V2:开源AI在数学奥林匹克竞赛中夺得金牌 DeepSeekMath-V2  IMO金牌 开源AI 自验证 第9张

更有趣的是,若让模型从自身生成的32个解法中挑选最佳(Best@32),其评分准确度极高,得分直接跃升至0.42。

这证实了一个关键点:模型不仅能修正错误,而且极具自知之明,它清晰知晓哪个答案最优。

计算力与智慧的融合:高强度搜索策略

前文提及的普特南数学竞赛118分(近满分)的“奇迹”,并非仅靠运气,而是得益于一种“高强度搜索”(High-Compute Search)策略。

DeepSeek团队在实验中采用了极端严苛的测试方式:

1.海量候选:对每道题初始生成64个候选证明。

2.极致验证:为每一个证明生成64个独立的验证分析。

3.严格筛选:只有那些能通过全部64次验证的证明,才被认定为“完全可信”。

正是这种“千锤百炼”的策略,让模型解决了IMO 2025中6道题的5道,以及在CMO 2024中达到金牌水平。

实验数据还揭示了一个有趣现象:对于那些未能解答的题目,模型通常能准确找出自身证明的漏洞;而对于已解决的题目,则是实打实地通过了所有检验。

这是“LLM可被训练为可靠数学验证者”假设的有力实证。

DeepSeekMath-V2的深远意义

DeepSeekMath-V2的成功启示我们,AI正从“模仿人类语言”进化至“模仿人类思维”。

真正的思考,往往伴随着自我质疑。

当我们看到AI在输出最终结果前,懂得暂停,对自己说“这似乎不妥,我需重新计算”时,那才是其真正超越工具属性的时刻。

真正的智慧,不仅在于瞬间给出答案,更在于拥有否定自我的勇气与能力。

参考资料:

https://github.com/deepseek-ai/DeepSeek-Math-V2