1月4日,DeepSeek悄然在arXiv平台更新了R1研究论文。
此次更新未伴随任何官方公告或社交媒体宣传,仅版本号由v1变为v2。然而,下载PDF的读者会注意到显著变化:页数从22页激增至86页,文件大小也从928KB增加到1562KB。
新增内容涵盖完整的训练流程拆解、超过20个评测基准的详尽数据,以及数十页的技术附录,堪称一次近乎重写的重大修订。
更新时机也耐人寻味。1月20日恰逢R1发布一周年,一个月后的2月17日是农历春节,而DeepSeek素有过节前发布重磅产品的习惯,去年的V3和R1均选择在春节前后亮相。
一篇“旧”论文的大幅更新,是否预示着新动作的临近?为解答这一疑问,我们先深入这86页内容,探究其核心增量。
要把握此次更新的深意,有必要回顾R1论文的完整历程。
2025年1月20日,DeepSeek在arXiv发布22页预印本,核心结论为:纯强化学习能使大模型自主“学会”推理,无需人工标注的思维链数据。论文、模型、方法全面开源,迅速引爆全球AI社区。
同年9月17日,R1论文登上Nature封面,梁文锋作为通讯作者。这标志着全球首个通过顶级学术期刊同行评审的主流大模型诞生,8位专家审稿,逐一质疑与回应。审稿焦点包括R1是否使用OpenAI模型输出训练(即“蒸馏”质疑)、训练数据来源及安全性细节。DeepSeek明确否认蒸馏指控,并首次披露训练成本:从V3-Base到R1仅花费29.4万美元。
Nature为此刊发社论,指出主流大模型公司发布模型时通常缺乏独立评审,“这一空白因Nature发表DeepSeek-R1细节而得以填补”。
2026年1月4日,86页完整版上线。最新版本将Nature版的技术细节同步至arXiv,包括Dev1、Dev2、Dev3训练阶段的完整拆解、扩展后的评测数据,以及附录A-F的技术文档,现免费开放给所有人。
期刊发表后更新预印本在学术界虽属常规,但从22页扩至86页、内容量增长近四倍的幅度却极为罕见。某种程度上,DeepSeek将论文打造成技术全书,旨在让所有人不仅读懂R1,更能复现R1。
原版论文对训练过程描述较为简略:冷启动SFT → 强化学习 → 最终SFT,三步概括,细节缺失。新版则彻底拆解流程,引入三个中间检查点:Dev1、Dev2、Dev3。
R1完整训练流程图
Dev1为冷启动阶段产物,此时模型指令遵循能力显著提升,但推理能力反而下滑。论文数据显示,Dev1在AIME数学竞赛中表现甚至逊于基座模型。
Dev2专注于“挽救”推理能力,仅进行面向推理的强化学习,恢复数学与代码能力,同时维持指令遵循水平。
Dev3为最终打磨阶段,通过拒绝采样生成高质量数据,再进行一轮SFT,确保模型在推理与通用任务上稳定输出。
这套“先立规矩、再练内功、后调形态”的三段流程,解答了众人关切:为何R1能兼顾长链推理与输出规范,而不像R1-Zero那样混乱或中英夹杂。
原版评测聚焦于AIME数学竞赛、Codeforces编程、MATH数据集等核心指标。新版大幅扩展至MMLU、MMLU-Pro、DROP、GPQA Diamond、IFEval、Arena-Hard、SWE-bench Verified、LiveCodeBench等20余个基准。
R1-Zero训练曲线:准确率从15.6%攀升至77.9%,超越人类水平(绿色虚线)
更引人注目的是人类基线的引入。新版论文直接将R1的AIME成绩与人类参赛者平均分对比。R1-Zero训练中,pass@1从15.6%一路涨至71.0%,采用多数投票后达86.7%,超越人类平均水平。
这种与人类对比的评测方式,比单纯刷榜更具说服力。
对希望复现R1的研究者而言,新增附录可能是最宝贵的部分。
附录A详述GRPO的实现细节,包括学习率、KL系数、采样温度等关键超参数。附录B-F则覆盖奖励函数设计、数据构造策略、评测细节等。原版论文“方法论”色彩浓厚,新版则更像操作手册,参数明确、流程清晰、难点标注。
如某技术解读所言,与原版聚焦高层方法论和结果不同,新版附录为任何想了解模型工作原理的人提供了完整透明的指南。
新版论文中有一个易被忽略的章节:Unsuccessful Attempts(失败的尝试)。
DeepSeek坦诚尝试了MCTS和PRM这两条过去一年业界最热门的研究方向,众多顶级实验室重注投入。结果却是:走不通,至少在通用推理任务上行不通。
论文解释称,这类方法对“步骤颗粒度”要求过高,适合数学证明等每一步可清晰验证的场景,但难以泛化至更开放的推理任务。这与开发者社区讨论不谋而合:PRM和MCTS可能限制强化学习的探索空间,仅适用于边界清晰的问题。
将失败写入论文在学术界虽不罕见,但在工业界主导的大模型研究中却相当少见。某种程度上,DeepSeek为整个行业祛魅:巨头们死磕的方向未必正确。
从22页到86页,DeepSeek补上的是可复现性。这也引出一个问题:为何选择此时做这件事?
期刊发表后同步内容至预印本在学术界司空见惯,但R1此次更新仍有几个耐人寻味之处。
首先是时间节点。1月4日论文更新,1月20日R1发布一周年,2月17日农历春节,三个日期串联,引人遐想。去年V3和R1均在春节窗口期发布,DeepSeek似已形成“年货”传统。X平台上已有人发问:“我们会很快听到鲸鱼的消息吗?”
其次是更新本身的异常。多数论文发布后不再改动,最多修正勘误。一次性补充60多页,将内部积累的实现细节、消融实验乃至失败尝试全部公开,这在追求护城河的AI行业极为罕见。
如何理解这种“反常”?一种解读是这些技术对DeepSeek当前研究已无竞争优势,他们已转向新方向。结合1月1日刚发布的mHC架构论文,下一代模型的轮廓似乎正在浮现。
另一种解读是防御性开源:将一年前的技术细节彻底公开,使其成为公共知识,可防止竞争对手申请专利或构建壁垒。与其让R1技术逐渐稀释于闭源竞争,不如主动释放,抬升整个开源社区的水位。
还有一个易被忽略的细节:作者名单。论文用星号标注已离职人员,但100多位贡献者中仅5位带星号,18位核心作者一年后全部留存。更有趣的是,一位曾带星号的研究员此次星号消失,似乎已归队。核心班底几乎零流失,在人才争夺白热化的AI行业实属罕见。
回望过去一年,DeepSeek的节奏始终是先发论文,再发模型。V3论文详解MoE架构和MLA注意力机制,R1论文拆解纯强化学习训练框架,mHC论文优化训练稳定性。每篇均非事后总结,而是提前铺路。此次86页更新,某种意义上也是同样逻辑:在下一个大动作前,彻底清空上一阶段的技术债。
至于那个“大动作”究竟是什么、何时到来,答案或许即将揭晓。
本文由主机测评网于2026-03-16发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260331818.html