当前位置:首页 > 科技资讯 > 正文

DeepSeek-R1登上《Nature》封面:国产AI模型的辉煌成就

就在今日,DeepSeek的大型语言模型DeepSeek-R1的重要研究成果,荣登国际顶级科学期刊《Nature》的封面。

DeepSeek-R1登上《Nature》封面:国产AI模型的辉煌成就 DeepSeek-R1  Nature AI模型 强化学习 第1张

链接:https://www.nature.com/nature/volumes/645/issues/8081

与OpenAI那些动辄上千万美元的投资相比,这个仅花费30万美元训练出来的国产AI模型不仅一度引发美股震荡,还登上了Nature的最新封面。

DeepSeek-R1登上《Nature》封面:国产AI模型的辉煌成就 DeepSeek-R1  Nature AI模型 强化学习 第2张

此次登上Nature封面的文章,是DeepSeek年初在arXiv发表的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,即R1的技术论文。

DeepSeek-R1登上《Nature》封面:国产AI模型的辉煌成就 DeepSeek-R1  Nature AI模型 强化学习 第3张

论文作者名单中,梁文锋担任通讯作者。

虽然大体上与年初那篇类似,但补充了相当多的细节。

正文只有双栏11页,而补充材料却达到了83页;同行评审,即审稿人与DeepSeek团队就论文某些问题进行讨论的记录(一般称为rebuttal,反驳),也有64页之多。

这些新公开的资料让我们看到了DeepSeek R1详细的训练流程,以及团队首次披露了训练R1推理能力的关键成本:仅29.4万美元。

在同行评审的文件中,DeepSeek回答了之前对R1成功的质疑,比如是否依赖于「蒸馏」,即是否「抄袭」了像OpenAI等更强模型的输出等问题。

我们没有故意加入OpenAI生成的内容,所有训练数据都是通过网页抓取。

为何是DeepSeek登上Nature封面?

你可能会问,DeepSeek R1并不算是全球范围内最强的大语言模型,为何是DeepSeek登上了Nature。

DeepSeek-R1登上《Nature》封面:国产AI模型的辉煌成就 DeepSeek-R1  Nature AI模型 强化学习 第4张

Nature杂志是全球影响力最高的期刊之一,理工类学科常说的CNS即上图中的Cell、Nature以及Science。而封面的含金量更是Top中的Top。

在AI行业,与计算机视觉和模式识别类顶级会议CVPR不同,Nature封面有着特殊的象征意义,它不仅是科研成果的认可,更像是一种科学殿堂的最高认可。

过去几年,OpenAI、Anthropic、Google都发布过各种技术报告(technical report),但都没有把自家大模型送上同行评审。原因有两方面:

  • 一方面,同行评审意味着要公开更多细节,可能涉及商业机密。
  • 另一方面,大模型的很多宣传容易被质疑,同行评审则要求你必须提供证据、接受外部质询。

而这一次,DeepSeek把R1模型送进了学术体系,让8位独立专家逐条审查,并公开了审稿意见与作者回复。

这不仅让R1的科学价值获得了认可,也为整个行业立下了一个新标杆。大模型不只是公司的黑箱,它们也可以经受专业科学的检验。

这是AI走向科学化的历史性时刻,也是DeepSeek为什么能登上Nature封面的重要原因。

开源AI平台HuggingFace的机器学习工程师Lewis Tunstall在审稿时表示:

这是一个非常受欢迎的先例,如果我们没有公开分享这一过程大部分内容的规范,就很难评估这些系统是否带来风险。

DeepSeek-R1登上《Nature》封面:国产AI模型的辉煌成就 DeepSeek-R1  Nature AI模型 强化学习 第5张

Nature官方也专门发文呼吁其他公司把他们的大语言模型交给同行评审。

在这篇推荐文章里面,Nature编辑专门提到了同行评审的好处。

依赖独立研究人员的同行评审是平息人工智能行业炒作的一种方式。

与技术报告、技术博客不同,同行评审不会单向接受信息,而是要确保作者证明他们的主张。就像我们平时看一些大语言模型的发布会,他们都声称自己的模型在某些基准测试上拿到了第一名。

但同行评审就能制衡AI开发者避免让他们选择能最好展示其模型性能的基准测试来为自己「批改作业」;因为基准测试是可以被操纵以高估模型的性能。

能经得起评审是因为技术也足够强

除了是首个经过独立同行评审的大语言模型外,DeepSeek R1自身的技术突破也毫不逊色。

DeepSeek-R1最核心的贡献是证明了纯强化学习(pure reinforcement learning, RL)可以有效激发LLM的推理能力无需依赖人类标注的思维路径自己学会推理。

DeepSeek-R1登上《Nature》封面:国产AI模型的辉煌成就 DeepSeek-R1  Nature AI模型 强化学习 第6张

纯粹的强化学习

传统的大模型提升推理能力往往需要人类手动提供大量思考链条让模型模仿。但这样的问题是:需要人工标注成本高不可持续;其次是受限于人类思维模型只能学人类的套路难以探索新的推理路径。

R1的方法完全不同它只给模型一个奖励信号「答案对了就加分错了就减分」;不规定中间推理步骤让模型自己去探索。

能力的涌现与自我进化

DeepSeek-R1登上《Nature》封面:国产AI模型的辉煌成就 DeepSeek-R1  Nature AI模型 强化学习 第7张

“让我先想一想”的推理过程