当前位置:首页 > 科技资讯 > 正文

大模型后训练的强化学习进化:从PPO到GFPO

大模型的后训练如同一棵树的枝桠,不断延伸,探索着新的可能性。

随着大语言模型的快速发展,新的训练技术和优化算法层出不穷。

自DeepSeek横空出世以来,其创新的GRPO(Group Relative Policy Optimization)一跃成为强化学习的黄金范式。

GRPO已经成为一种通用的大模型强化学习算法,能够应用于广泛的后训练任务,甚至包括让大模型玩2048。

今年,大模型后训练研究取得了多个重要突破,包括Seed团队的DAPO、Qwen团队的GSPO以及微软团队的GFPO等,这些改进无一例外都是基于GRPO范式的优化。

这些名字听起来有点绕,GRPO到底有什么魔力,让各大研究团队纷纷围绕它进行改进?同时,它又有哪些缺陷需要被修正呢?

通过这篇文章,我们希望能深入浅出地解释大模型后训练的原理、近期的技术进化路线,为读者构建一个完整的知识体系。

后训练与强化学习

很多人认为,强化学习是一个古老的概念,似乎与全新的大模型格格不入。

让我们先从大模型说起。大众理解的大语言模型似乎很简单,即从海量数据中自监督学习出来的模型,能够预测文本中下一个出现的词,从而生成语言文本。

但这并不全面。这种理解只突出了大模型的“预训练”过程,却完全忽略了“后训练”这一重要环节。

简单来说,“预训练”是从海量数据中学习的过程,使模型掌握通用语言能力。然而,这并不意味着模型生成的文本一定符合我们的偏好;它可能生成冗长或不准确的内容,无法满足应用任务的需求。

预训练后的大模型会说话,但不一定“说对话”。

“后训练”的主要目标是强化模型在特定领域的知识和应用能力,增强其适应性和灵活性,使其更好地满足实际应用场景中的多样化需求。

而强化学习则是后训练中不可或缺的核心部分。关于强化学习的理解,我们可以参考先前编译的来自Unsloth团队的文章。

强化学习的核心是“反馈”,目标是增加好结果的出现概率,降低坏结果的出现概率。

例如,在吃豆人(Pacman)游戏中:吃掉一块饼干会得到加分,碰到敌人则会扣分。

大模型后训练的强化学习进化:从PPO到GFPO 大模型 后训练 强化学习 GRPO 第1张

这是最基本的强化学习方式。那么在大模型训练中,我们该如何给大模型提供加减分的反馈呢?

我们的核心目标是让大模型输出符合任务偏好的内容。最简单的方式就是人类的反馈。

如果你也这么想,那你的想法与OpenAI不谋而合。在训练GPT时,OpenAI就采用了RLHF(基于人类反馈的强化学习)的方法。

大模型后训练的强化学习进化:从PPO到GFPO 大模型 后训练 强化学习 GRPO 第2张

然而,仅有反馈并不等于一切问题都解决了。我们通过RLHF获得的反馈,直接作为Reward去训练模型,会出现激励不充分和方差过大的问题。

大模型后训练的强化学习进化:从PPO到GFPO 大模型 后训练 强化学习 GRPO 第3张

假设有两个模型A和B,A的初始能力显著强于B。通过直接反馈会出现以下情况:

  • 即使模型B从30提升到60,与模型A的80相比仍然显得很差,优化时它得到的激励有限。
  • 模型A在追求更高分时可能出现激进的变化,导致reward有时飙升有时迅速回落,训练过程不稳定。

PPO的稳定策略

为了稳定实现RLHF,OpenAI构建了PPO(Proximal Policy Optimization)机制,加入了Critic、CLIP操作和Reference Model。在保持策略更新不过度的同时,依旧能高效提升性能。

大模型后训练的强化学习进化:从PPO到GFPO 大模型 后训练 强化学习 GRPO 第4张

PPO引入了Critic:

通俗来说,我们不再只使用纯粹的Reward来反馈,而是设置一个“价值函数”作为参考。训练目标从“Reward”进化成“Advantage”。

大模型后训练的强化学习进化:从PPO到GFPO 大模型 后训练 强化学习 GRPO 第5张

对某个动作,如果实际Reward超过了Critic的预期就作为奖励;若低于预期则为负反馈。优化目标变成:

大模型后训练的强化学习进化:从PPO到GFPO 大模型 后训练 强化学习 GRPO 第6张

这意味着我们拥有了一个相对评估模型进步程度的新范式而非采用绝对Reward反馈。引入Critic可以显著降低训练过程中的方差相较于Reward反馈模型进步能获得的梯度更显著。