当前位置：首页 > 科技资讯 > 正文

DeepSeek-R1又卷土重来，新增64页技术细节

主机测评网
科技资讯
2026-06-09
623

终于，备受期待的DeepSeek-R2尚未亮相，而R1却再度登场，带着满满的细节。

你还记得去年在《Nature》封面上大放异彩的R1论文吗？

DeepSeek又悄悄为它补充了64页的技术干货。

没错，你没看错，从原来的22页直接膨胀到86页，这简直是学术界的‘诚品’……

DeepSeek-R1又卷土重来，新增64页技术细节 DeepSeek-R1 技术细节更新安全性第1张

谁能想到，论文发布都快一年了，DeepSeek还能继续添砖加瓦。

DeepSeek怒加64页猛料

对比两个版本的论文，你会发现事情并不简单。

新版本论文的信息量巨大，不仅仅是多了几页附录，正文也经历了大幅修改，几乎像是重新写了一篇。

在深入新论文之前，我们先简单回顾下去年一月的v1版。

这个版本聚焦于DeepSeek-R1-Zero，重点是释放一个信号：纯强化学习的道路是可行的。

相比之下，v2在细节上明显更加用心。

比如R1部分，DeepSeek这次系统性地展示了R1的完整训练路径。

DeepSeek-R1又卷土重来，新增64页技术细节 DeepSeek-R1 技术细节更新安全性第2张

整个过程分为四步：

第一步，冷启动。用数千条能体现思考过程的CoT数据对模型进行SFT。

第二步，推理导向RL。在不破坏对话思考风格的前提下，继续提升模型能力，同时引入语言一致性奖励，解决语种混用的问题。

第三步，拒绝采样和再微调。同时加入推理数据和通用数据，让模型既会推理、也会写作。

第四步，对齐导向RL。打磨有用性和安全性，让整体行为更贴近人类偏好。

一路读下来，感觉DeepSeek是真不把咱当外人……

冷启动数据怎么来的，两轮RL各自干了什么，奖励模型怎么设，全都写得明明白白。简直跟教科书没啥区别了。

除了R1，R1-Zero的部分也有补充，主要是关于「Aha Moment」这件事。

在v1版本中，DeepSeek展示过一个现象：随着思考时长的增加，模型会在某个时刻突然出现学会「反思」。

这次，DeepSeek对这种涌现做了更多的分析，放在附录C.2中：

DeepSeek-R1又卷土重来，新增64页技术细节 DeepSeek-R1 技术细节更新安全性第3张

先挑了一批具有代表性的反思性词汇，比如「wait」「mistake」「however」等，由几位人工专家筛选、合并成一份最终词表，然后统计这些词在训练过程中出现的频率。

结果显示，随着训练推进，这些反思性词汇的出现次数相比训练初期直接涨了大约5到7倍。

关键在于，模型在不同阶段，反思习惯还不太一样。

以「wait」为例，在训练早期这个词几乎从不出现，但到了8000步之后，突然出现一个明显的峰值曲线。

DeepSeek-R1又卷土重来，新增64页技术细节 DeepSeek-R1 技术细节更新安全性第4张

不过，尽管DeepSeek-R1在推理能力上大幅提升，但作为开源模型，如果安全性工作不到位，很容易被微调后用于生成危险内容。

在v1版论文里，DeepSeek提到了针对安全性的RL。这次他们详细披露了相关细节和评估方式。

为评估并提升模型的安全性，团队构建了一个包含10.6万条提示的数据集，依据预先制定的安全准则标注模型回复。

奖励模型方面，安全奖励模型使用点式（point-wise）训练方法区分安全与不安全的回答。其训练超参数与有用性奖励模型保持一致。

DeepSeek-R1又卷土重来，新增64页技术细节 DeepSeek-R1 技术细节更新安全性第5张

风险控制系统方面，DeepSeek-R1通过向DeepSeek-V3发送风险审查提示来实现。主要包含两个流程：

潜在风险对话过滤

基于模型的风险审查

每轮对话结束，系统会将用户输入和一份与安全相关的关键词匹配。一旦命中，就会被标记为「不安全对话」。
识别成功后，系统会将这些不安全对话和与预设的风险审查提示（下图）拼接在一起并发送给DeepSeek-V3进行评估判断是否要拦截。

免费vps 免费服务器服务器教程

本文由主机测评网于2026-06-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260647781.html

DeepSeek-R1又卷土重来，新增64页技术细节

DeepSeek怒加64页猛料

Anthropic逆袭之路：从保守到3500亿估值的极致安全挑战

DeepSeek R1论文大爆发：开源挑战闭源，强化学习引领AI新纪元

DeepSeek-R1又卷土重来，新增64页技术细节

DeepSeek怒加64页猛料

Anthropic逆袭之路：从保守到3500亿估值的极致安全挑战

DeepSeek R1论文大爆发：开源挑战闭源，强化学习引领AI新纪元

相关文章