近日,DeepSeek-R1 的研究成果登上了 Nature 封面,作为首个通过权威期刊同行评审的主流大模型,其在技术之外,还披露了训练成本。
9月17日,DeepSeek-R1 的相关研究成果登上 Nature 封面,这一消息迅速在全球学术领域引发热议。其实,该研究成果已于今年1月以预印本的形式在 arXiv 发表,但本次在 Nature 公开的意义在于其通过了权威期刊的同行评审。这意味着外部专家不仅接收信息,还可以在独立第三方(编辑)的监督下,通过协作过程提出问题并要求更多信息,这在业内尚属首次。
值得注意的是,与1月公开的预印本论文不同,这次正式发表的论文补充了关于该模型训练成本的细节。据 Nature News 报道,DeepSeek-R1 的训练成本仅为29.4万美元。尽管 DeepSeek 已经为 R1 模型所依托的基础 LLM 投入了约600万美元,但总成本仍远低于业内普遍认为的头部模型所需的数千万美元。
* 预印版论文地址:https://hyper.ai/cn/papers/2504.07128
在训练 DeepSeek-R1-Zero 时,共使用了648张H800 GPU,耗时约198小时。此外,在训练 DeepSeek-R1 的过程中,同样使用了648张H800 GPU,训练约4天,约合80小时。为了构建SFT数据集,还消耗了约5,000 GPU Hours。具体成本如上图所示。
大模型的推理能力无需赘述,已成为业内研究的重点。然而,在预训练阶段获得推理能力通常需要巨大的计算资源。对此,有研究表明通过CoT(Chain-of-Thought,思维链)prompting可增强LLM的能力,或在后训练阶段学习高质量的多步推理轨迹。尽管这些方法有效,但仍存在依赖人工标注的推理过程等局限。
针对此,DeepSeek公司基于DeepSeek-V3 Base8,采用Group Relative Policy Optimization(GRPO)作为RL框架,并跳过了传统的监督微调(SFT)阶段。这一设计基于假设:人为定义的推理模式可能限制模型的探索,而不受限制的RL训练更能促进LLM中新推理能力的涌现。
基于此,团队开发了DeepSeek-R1-Zero,展现了多样而复杂的推理行为。该模型倾向于生成更长的回答,融入验证、反思及对不同解法的探索。尽管没有显式教授模型如何进行推理,但它通过RL成功习得了更优的推理策略。研究团队采用了群组相对策略优化(GRPO),该算法简化训练流程并减少资源消耗。
具体而言,接收用户提问后,模型首先在「Think」标签中输出推理过程,再在「Answer」标签中给出最终答案。同时,研究团队采用基于规则的奖励系统来评估DeepSeek-R1-Zero在实验中的答案。
评测结果显示,DeepSeek-R1-Zero在AIME 2024数学竞赛上的pass@1分数从初始的15.6%提升至77.9%。若采用自洽解码策略,准确率则提升至86.7%,超过人类选手平均水平。
此外,在强化学习过程中,DeepSeek-R1-Zero展现出随训练逐步增强的推理能力。实验数据显示,模型由内在适应驱动时,其平均推理长度在训练中持续增长并修正推理路径。
为了改善可读性和语言混合问题,研究团队开发了DeepSeek-R1。其工作流程包括基于DeepSeek-V3收集对话式、与人类思维一致的冷启动数据等。
从实验结果来看,对比DeepSeek-R1-Zero和DeepSeek-R1 Dev1,DeepSeek-R1在各个开发阶段的指令执行表现有显著提升。
作为首个接受同行评审的LLM模型,DeepSeek-R1的研究论文一经发表便登上了Nature封面。Nature在“Bring us Your LLms:why peer review is good for AI models”一文中表示,同行评审是应对AI行业营销炒作的有效方式。
对此,曾任AAAI主席的亚利桑那大学研究员Subbarao Kanbhampati表示他参与了此次同行评审并认为这是良好的趋势。
美国科技媒体Wind Info报道表示与年初发布的初始版本相比该论文揭示了更多关于模型训练过程的细节并解决了早期的蒸馏问题。
" ...
本文由主机测评网于2026-04-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260441533.html