当前位置:首页 > 科技资讯 > 正文

DeepSeek R1论文大爆发:开源挑战闭源,强化学习引领AI新纪元

R1论文巨幅扩充至86页!DeepSeek向世界证明:开源不仅能追平闭源,更能引领闭源创新!

全网震撼!

仅仅两天前,DeepSeek悄然将R1的论文进行了更新,从原先的22页“膨胀”至86页。

全新的论文揭示,只需强化学习便能显著提升AI的推理能力!

DeepSeek似乎正在憋大招,甚至有网友推测,纯强化学习方法可能会出现在即将到来的R2中。

DeepSeek R1论文大爆发:开源挑战闭源,强化学习引领AI新纪元 R1论文 强化学习 开源社区 第1张

此次更新直接将原始论文升级为:一份开源社区可完全复现的技术报告。

DeepSeek R1论文大爆发:开源挑战闭源,强化学习引领AI新纪元 R1论文 强化学习 开源社区 第2张

论文地址:https://arxiv.org/abs/2501.12948

论文中,DeepSeek-R1新增内容干货满满,信息含量爆炸——

  • 精确的数据配方:明确给出数据规模(2.6万道数学题,1.7万条代码),以及具体的创建流程
  • 基础设施说明:vLLM/DualPipe设置的示意图
  • 训练成本拆解:总计约29.4万美元(R1-Zero使用了198小时的H800GPU)
  • 「失败尝试」复盘:深入解释PRM为什么没有成功
  • 模型对比:与DS-V3、Claude、GPT-4o系统性比较(此前只包含o1)
  • 10页安全性报告:详细说明安全评估与风险分析

DeepSeek R1论文大爆发:开源挑战闭源,强化学习引领AI新纪元 R1论文 强化学习 开源社区 第3张

结果显示,DeepSeek R1多项实力与OpenAI o1相媲美,甚至赶超o1-mini、GPT-4o、Claude 3.5。

DeepSeek R1论文大爆发:开源挑战闭源,强化学习引领AI新纪元 R1论文 强化学习 开源社区 第4张

不仅如此,这次论文末尾还列出了核心贡献者的名单及其具体贡献。

DeepSeek R1论文大爆发:开源挑战闭源,强化学习引领AI新纪元 R1论文 强化学习 开源社区 第5张

DeepSeek R1论文大爆发:开源挑战闭源,强化学习引领AI新纪元 R1论文 强化学习 开源社区 第6张

接下来,让我们一起拆解最新论文内容的核心亮点。

DeepSeek R1爆更,实力打平o1

首先,我们来看DeepSeek-R1的具体评测结果。

最新评估依旧覆盖了数学推理、编码、通用知识&理解、事实型&指令遵循等任务的全方位对比。

在教育知识类基准上,包括MMLU、MMLU-Pro和GPQA Diamond,DeepSeek-R1整体超越DS-V3。

特别是在STEM相关问题上,准确率显著提高——这背后最大功劳要归功于RL。

在DeepSeek看来,主要是工程类RL训练数据还不够多,所以DeepSeek-R1在这块的能力还没完全发挥出来。

DeepSeek R1论文大爆发:开源挑战闭源,强化学习引领AI新纪元 R1论文 强化学习 开源社区 第7张