大语言模型在RLVR(基于可验证奖励的强化学习)训练中面临的“熵困境”,终于有解了!
2024年以来,以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型,在数学、代码和科学推理任务上取得了显著突破。这些进展得益于名为RLVR的方法,它通过数学验证、单元测试等可自动判断对错的方式提供训练信号,使模型能够进行大规模、高效率的自我改进。
然而,RLVR实践中始终面临“探索机制极易失衡”的瓶颈。研究团队提出的选择性熵正则化方法(SIREN),通过划定探索范围、聚焦关键决策、稳定训练过程的三重机制,实现了对探索行为的精准调控。
实验证明,该方法在多项数学推理基准上取得了显著性能提升,使模型的探索过程变得更加高效与可控。
下面详细来看——
在RLVR训练中,研究人员期望模型能够持续探索多样化的解题路径。为此,他们引入熵正则化手段,鼓励模型在每一步生成时保持一定的“不确定性”。
然而,这一策略在大型推理模型的复杂场景下却极易走向两个极端:要么探索受限,陷入熵崩塌;要么探索失控,引发熵爆炸。
传统方法会失效的根本原因在于:熵正则化的激励是“无差别”的。而大型推理模型的生成过程具有鲜明的结构性,传统方法忽略了这种“探索价值的非均匀分布”,容易引发训练不稳定。
下图表明,训练前模型的概率分布高度集中,且只有少量位置在逻辑上关键;过度探索后概率被摊薄,生成内容混乱。
针对传统方法的不足,研究人员提出选择性熵正则化方法(SIREN),通过结构化约束实现探索过程的精细调控。SIREN包含三个核心机制:
1、划定探索范围(Top-p掩码)
在每个生成步骤中,将熵的计算范围严格限定于概率最高的核心token集合。
2、识别关键决策点(峰值熵掩码)
自动识别生成序列中熵值显著高于平均水平的逻辑关键词。
3、稳定训练过程(自锚定正则化)
将熵值目标从最大化调整为维持合理区间,通过动态锚定机制使探索强度始终处于可控范围。
这一方法首次在RLVR框架中实现了对探索范围、位置和强度的三重精准控制。
实验结果显示,SIREN在不同模型和数据集上均取得显著提升。
分析表明,这正是有效探索带来的根本性改变。与传统的熵正则方法相比,SIREN展现出更合理有效的探索模式。
这项研究致力于解决大语言模型在RLVR训练中面临的策略探索难题。
通过系统的实证分析,研究人员发现传统的探索机制在大规模动作空间和长序列生成中极易失衡。为突破这一瓶颈,团队提出了选择性熵正则化方法(SIREN),实现了对探索行为的精准调控。实验证明,该方法在多项数学推理基准上取得了显著性能提升。
团队期待这项工作能为下一代推理模型的训练范式提供启发。
本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260542572.html