在经历一段时期的沉寂后,DeepSeek强势回归!今日,DeepSeekMath-V2模型隆重登场,成功斩获IMO 2025金牌,其能力比肩乃至超越谷歌的IMO金牌模型,开源人工智能领域实现重大突破。
DeepSeek再次闪耀登场!
近期,DeepSeek正式发布DeepSeekMath-V2新型号,一举夺得IMO 2025金牌荣誉。
核心亮点在于,这是首个“开源的IMO金牌模型”。
该模型构建于DeepSeek V3.2 Exp Base基础之上。
目前,已公开宣布获得金牌的两大模型,一款来自谷歌Gemini Deep Think,另一款则源于OpenAI的内部模型。
在IMO-ProofBench评估中,DeepSeekMath-V2展示了卓越的定理证明实力:
IMO 2025:成功解答5道题目(总计6题),达到金牌标准;
CMO 2024(中国数学奥林匹克):同样达到金牌水平;
Putnam 2024:取得118分接近满分(120分),超越人类参赛者最高分(90分)。
此外,在ProofBench-Basic基准测试上,DeepSeekMath-V2的表现力压谷歌金牌模型——Gemini Deep Think;在ProofBench-Advanced上则紧追谷歌。
研究论文中,团队训练了一个基于LLM的验证器作为奖励函数,并借此训练模型以自主求解问题。
同时,他们扩展了验证器计算资源,以标注更复杂的证明,进一步优化验证器性能。
该方法极为精巧,能有效缩小生成与验证之间的鸿沟。
实证结果表明,“可验证的数学推理”是未来一条可行的发展路径。
DeepSeekMath-V2的相关论文也已于GitHub同步公开。
DeepSeek最新推出的DeepSeekMath-V2带来的核心创新是:自验证(Self-Verification)。
这不仅令其在顶级数学竞赛中横扫人类顶尖选手,更关键的是,它指明了通向更高级AI的一条必经之路——掌握自我反思能力。
以往,训练AI解决数学题的方法较为直接:提供题目,若其计算结果与标准答案匹配,则给予奖励。
这在简单计算题(如AIME竞赛)中效果显著。
但到了数学领域的巅峰——国际数学奥林匹克(IMO)这一层级,该方法便完全失效。
因为IMO题目通常不提供简单数值答案,而是要求撰写一段逻辑严密的证明过程。
过去的AI在此常沦为“高级忽悠”,它能编织一套看似专业的数学术语,最终强行得出结论。即使可能碰巧结果正确,但论证过程漏洞百出。
DeepSeekMath-V2决心从根本上革新规则,不仅要奖励正确答案,更要激励严谨的“自我审查”过程。
为实现这种“自我反思”,DeepSeek设计了一套精密的“协同制衡”系统,犹如在AI思维中安置三个角色:
1.“解题者”(Generator,证明生成器):
负责解答题目并撰写证明。
但与以往不同,它被训练成不仅要输出答案,还需附上一段“自我评估”。它必须坦诚表示:“此步骤我存有疑虑,可能存在问题。”
研究团队巧妙设定了奖励机制,产生了以下激励效果:
2.“严格评审”(Verifier,证明验证器):
这是DeepSeek专门训练的一个评分模型。它不关注答案正确与否,而是专注审视证明过程寻找漏洞。它会像资深阅卷官那样,为证明评分(0分、0.5分、1分),并指明具体逻辑错误。
3.“评审监督员”(Meta-Verifier,元验证器):
这是最为精妙的一环。因为“评审”也可能出错,或为省事而敷衍评判。
于是DeepSeek引入了“元验证”机制,专门核查“评审”是否在胡乱挑刺。若“评审”指出了一个不存在的错误,它将被“监督员”纠正。
“元验证器”负责检查验证器提供的分析,包括:
1. 验证器指出的问题是否真实存在于原证明中;
2. 这些问题是否足以合理支持其给出的评分,且符合既定评分标准。
使用元验证器评估验证器输出分析的平均质量分数,从0.85提升至0.96,同时保持了原有的评分准确率。
在三者协同下,DeepSeekMath-V2甚至能在没有标准答案的情况下,自主出题、自行解答、自我批改、重新演算。
首先,证明验证器与证明生成器之间形成了良性的“闭环”:
尤其是那些“验证器初次尝试未能发现问题”的证明样本,对进一步训练验证器极具价值。
为高效获取新证明的正确性标签,研究团队设计了自动化标签生成流程:
在最后两轮训练迭代中,这条全自动标注流水线已完全取代人工标注。后续质量检查表明,自动生成的标签与人类专家判断高度一致。
在此领域,DeepSeek并非孤军奋战。
谷歌DeepMind的Gemini Deep Think同样是刚达到IMO金牌水平的顶尖模型。
两者的对比颇具意味:
更重要的是,DeepSeek将此技术路径开源并详细公开了训练方法。
这为全球AI研究者提示:通往AGI的道路上,自验证可能比单纯堆积计算资源更为关键。
这一惊人成绩背后,是DeepSeekMath-V2在实验中展现出的某种“反直觉”进化特质。
若剥离所有复杂的反复思考与验证过程,仅考察模型的“第一直觉”——即所谓的One-Shot能力,DeepSeekMath-V2依然表现出统治级实力。
研究团队构建了一个包含代数、几何、数论、组合和不等式五大类难题的内部测试集CNML(难度对标中国高中数学联赛)。
在此竞技场中,DeepSeekMath-V2与当前市面上最强的两大推理模型——OpenAI的GPT-5-Thinking-High和谷歌DeepMind的Gemini 2.5-Pro展开了正面交锋。
结果如下所示:
DeepSeekMath-V2并非险胜,而是全面胜出:
这表明,即便不给予模型“多思考片刻”的机会,其基础能力已极为强大。
真正令DeepSeekMath-V2脱颖而出的,是其在连续修正实验中的表现。
面对IMO候选题(Shortlist)级别的难题时,模型往往无法一次性写出完美证明。
实验显示,若允许模型进行“自我验证”——即生成答案后,自行挑刺,随后带着问题重新生成,奇迹便会出现:
更有趣的是,若让模型从自身生成的32个解法中挑选最佳(Best@32),其评分准确度极高,得分直接跃升至0.42。
这证实了一个关键点:模型不仅能修正错误,而且极具自知之明,它清晰知晓哪个答案最优。
前文提及的普特南数学竞赛118分(近满分)的“奇迹”,并非仅靠运气,而是得益于一种“高强度搜索”(High-Compute Search)策略。
DeepSeek团队在实验中采用了极端严苛的测试方式:
1.海量候选:对每道题初始生成64个候选证明。
2.极致验证:为每一个证明生成64个独立的验证分析。
3.严格筛选:只有那些能通过全部64次验证的证明,才被认定为“完全可信”。
正是这种“千锤百炼”的策略,让模型解决了IMO 2025中6道题的5道,以及在CMO 2024中达到金牌水平。
实验数据还揭示了一个有趣现象:对于那些未能解答的题目,模型通常能准确找出自身证明的漏洞;而对于已解决的题目,则是实打实地通过了所有检验。
这是“LLM可被训练为可靠数学验证者”假设的有力实证。
DeepSeekMath-V2的成功启示我们,AI正从“模仿人类语言”进化至“模仿人类思维”。
真正的思考,往往伴随着自我质疑。
当我们看到AI在输出最终结果前,懂得暂停,对自己说“这似乎不妥,我需重新计算”时,那才是其真正超越工具属性的时刻。
真正的智慧,不仅在于瞬间给出答案,更在于拥有否定自我的勇气与能力。
https://github.com/deepseek-ai/DeepSeek-Math-V2
本文由主机测评网于2026-01-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260121501.html