当前位置：首页 > 科技资讯 > 正文

DeepSeek-R1：首个大模型通过权威期刊同行评审，揭秘训练成本

主机测评网
科技资讯
2026-04-30
594

近日，DeepSeek-R1 的研究成果登上了 Nature 封面，作为首个通过权威期刊同行评审的主流大模型，其在技术之外，还披露了训练成本。

9月17日，DeepSeek-R1 的相关研究成果登上 Nature 封面，这一消息迅速在全球学术领域引发热议。其实，该研究成果已于今年1月以预印本的形式在 arXiv 发表，但本次在 Nature 公开的意义在于其通过了权威期刊的同行评审。这意味着外部专家不仅接收信息，还可以在独立第三方（编辑）的监督下，通过协作过程提出问题并要求更多信息，这在业内尚属首次。

值得注意的是，与1月公开的预印本论文不同，这次正式发表的论文补充了关于该模型训练成本的细节。据 Nature News 报道，DeepSeek-R1 的训练成本仅为29.4万美元。尽管 DeepSeek 已经为 R1 模型所依托的基础 LLM 投入了约600万美元，但总成本仍远低于业内普遍认为的头部模型所需的数千万美元。

* 预印版论文地址：https://hyper.ai/cn/papers/2504.07128

DeepSeek-R1：首个大模型通过权威期刊同行评审，揭秘训练成本 DeepSeek-R1 同行评审训练成本大模型第1张

在训练 DeepSeek-R1-Zero 时，共使用了648张H800 GPU，耗时约198小时。此外，在训练 DeepSeek-R1 的过程中，同样使用了648张H800 GPU，训练约4天，约合80小时。为了构建SFT数据集，还消耗了约5,000 GPU Hours。具体成本如上图所示。

大规模强化学习提升推理能力

大模型的推理能力无需赘述，已成为业内研究的重点。然而，在预训练阶段获得推理能力通常需要巨大的计算资源。对此，有研究表明通过CoT（Chain-of-Thought，思维链）prompting可增强LLM的能力，或在后训练阶段学习高质量的多步推理轨迹。尽管这些方法有效，但仍存在依赖人工标注的推理过程等局限。

针对此，DeepSeek公司基于DeepSeek-V3 Base8，采用Group Relative Policy Optimization（GRPO）作为RL框架，并跳过了传统的监督微调（SFT）阶段。这一设计基于假设：人为定义的推理模式可能限制模型的探索，而不受限制的RL训练更能促进LLM中新推理能力的涌现。

基于此，团队开发了DeepSeek-R1-Zero，展现了多样而复杂的推理行为。该模型倾向于生成更长的回答，融入验证、反思及对不同解法的探索。尽管没有显式教授模型如何进行推理，但它通过RL成功习得了更优的推理策略。研究团队采用了群组相对策略优化（GRPO），该算法简化训练流程并减少资源消耗。

DeepSeek-R1：首个大模型通过权威期刊同行评审，揭秘训练成本 DeepSeek-R1 同行评审训练成本大模型第2张

具体而言，接收用户提问后，模型首先在「Think」标签中输出推理过程，再在「Answer」标签中给出最终答案。同时，研究团队采用基于规则的奖励系统来评估DeepSeek-R1-Zero在实验中的答案。

评测结果显示，DeepSeek-R1-Zero在AIME 2024数学竞赛上的pass@1分数从初始的15.6%提升至77.9%。若采用自洽解码策略，准确率则提升至86.7%，超过人类选手平均水平。

DeepSeek-R1：首个大模型通过权威期刊同行评审，揭秘训练成本 DeepSeek-R1 同行评审训练成本大模型第3张

此外，在强化学习过程中，DeepSeek-R1-Zero展现出随训练逐步增强的推理能力。实验数据显示，模型由内在适应驱动时，其平均推理长度在训练中持续增长并修正推理路径。

DeepSeek-R1：首个大模型通过权威期刊同行评审，揭秘训练成本 DeepSeek-R1 同行评审训练成本大模型第4张

为了改善可读性和语言混合问题，研究团队开发了DeepSeek-R1。其工作流程包括基于DeepSeek-V3收集对话式、与人类思维一致的冷启动数据等。

DeepSeek-R1：首个大模型通过权威期刊同行评审，揭秘训练成本 DeepSeek-R1 同行评审训练成本大模型第5张

从实验结果来看，对比DeepSeek-R1-Zero和DeepSeek-R1 Dev1，DeepSeek-R1在各个开发阶段的指令执行表现有显著提升。

DeepSeek-R1：首个大模型通过权威期刊同行评审，揭秘训练成本 DeepSeek-R1 同行评审训练成本大模型第6张