当前位置:首页 > 科技资讯 > 正文

大语言模型RLVR训练新突破:选择性熵正则化方法

大语言模型在RLVR(基于可验证奖励的强化学习)训练中面临的“熵困境”,终于有解了!

2024年以来,以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型,在数学、代码和科学推理任务上取得了显著突破。这些进展得益于名为RLVR的方法,它通过数学验证、单元测试等可自动判断对错的方式提供训练信号,使模型能够进行大规模、高效率的自我改进。

然而,RLVR实践中始终面临“探索机制极易失衡”的瓶颈。研究团队提出的选择性熵正则化方法(SIREN),通过划定探索范围、聚焦关键决策、稳定训练过程的三重机制,实现了对探索行为的精准调控。

实验证明,该方法在多项数学推理基准上取得了显著性能提升,使模型的探索过程变得更加高效与可控。

大语言模型RLVR训练新突破:选择性熵正则化方法 RLVR 大语言模型 熵正则化 选择性熵正则化 第1张

下面详细来看——

核心困境:探索的“两难陷阱”

在RLVR训练中,研究人员期望模型能够持续探索多样化的解题路径。为此,他们引入熵正则化手段,鼓励模型在每一步生成时保持一定的“不确定性”。

然而,这一策略在大型推理模型的复杂场景下却极易走向两个极端:要么探索受限,陷入熵崩塌;要么探索失控,引发熵爆炸。

传统方法会失效的根本原因在于:熵正则化的激励是“无差别”的。而大型推理模型的生成过程具有鲜明的结构性,传统方法忽略了这种“探索价值的非均匀分布”,容易引发训练不稳定。

下图表明,训练前模型的概率分布高度集中,且只有少量位置在逻辑上关键;过度探索后概率被摊薄,生成内容混乱。

大语言模型RLVR训练新突破:选择性熵正则化方法 RLVR 大语言模型 熵正则化 选择性熵正则化 第2张

破局之道:为探索装上“精准导航”

针对传统方法的不足,研究人员提出选择性熵正则化方法(SIREN),通过结构化约束实现探索过程的精细调控。SIREN包含三个核心机制:

1、划定探索范围(Top-p掩码)

在每个生成步骤中,将熵的计算范围严格限定于概率最高的核心token集合。

2、识别关键决策点(峰值熵掩码)

自动识别生成序列中熵值显著高于平均水平的逻辑关键词。

3、稳定训练过程(自锚定正则化)

将熵值目标从最大化调整为维持合理区间,通过动态锚定机制使探索强度始终处于可控范围。

这一方法首次在RLVR框架中实现了对探索范围、位置和强度的三重精准控制。

大语言模型RLVR训练新突破:选择性熵正则化方法 RLVR 大语言模型 熵正则化 选择性熵正则化 第3张

实验验证:有效探索促进性能提升

实验结果显示,SIREN在不同模型和数据集上均取得显著提升。

大语言模型RLVR训练新突破:选择性熵正则化方法 RLVR 大语言模型 熵正则化 选择性熵正则化 第4张

那么,这些性能提升从何而来?

分析表明,这正是有效探索带来的根本性改变。与传统的熵正则方法相比,SIREN展现出更合理有效的探索模式。

大语言模型RLVR训练新突破:选择性熵正则化方法 RLVR 大语言模型 熵正则化 选择性熵正则化 第5张

小结

这项研究致力于解决大语言模型在RLVR训练中面临的策略探索难题。

通过系统的实证分析,研究人员发现传统的探索机制在大规模动作空间和长序列生成中极易失衡。为突破这一瓶颈,团队提出了选择性熵正则化方法(SIREN),实现了对探索行为的精准调控。实验证明,该方法在多项数学推理基准上取得了显著性能提升。

团队期待这项工作能为下一代推理模型的训练范式提供启发。