强化学习在大语言模型中的应用,如DeepSeek R1,已显著提升了模型的推理能力,但背后代价高昂。
训练过程中的低效是成本高的重要原因。如果一直做不合适的题目,既浪费时间又浪费资源。有效的训练需要“跳一跳,刚好够得着”的题目。
过去,学术界和工业界采用两种策略给大模型挑题:“题海战术”和“先测后学”。但前者浪费算力,后者需要大量大模型的推理,成本依然高昂。
有没有一种方法能精准挑题且不需要昂贵的大模型自测?
面对这一挑战,清华大学季向阳教授THU-IDM团队与慕尼黑大学CompVis团队合作,提出了基于模型预测的提示选择(Model Predictive Prompt Selection,MoPPS)框架。
该工作已被KDD 2026接收,受到业界和学界广泛关注。
MoPPS解决的核心问题是:能否不依赖昂贵的大模型评估,就动态预测题目难度,并据此精准挑选训练数据,提升模型推理能力?
MoPPS的想法和实现很简单:
MoPPS将每道题看作一个老虎机臂,每个题目有一个未知的“获胜概率”,即模型答对的概率。
MoPPS为每个题目配备一个Beta分布,估计其成功率。随着训练推进,大模型产生“成功/失败”的反馈,这些反馈被转化为对Beta分布的更新。
MoPPS不依赖真实LLM自测,而是直接从Beta分布中采样预测难度。使用Thompson Sampling,为每个候选题目抽取一个难度估计值,平衡探索与利用。
这种设计有三个优势:极低开销、动态适应、探索与利用平衡。
MoPPS提出了一种预测-采样-优化的新范式。
MoPPS在三大推理任务上展现出显著优势:
与需要大量额外推理的“先测后学”方法相比,MoPPS达到相同性能所需的Rollouts减少了高达78.46%!
相较于传统方法,MoPPS总能为模型挑出最关键的题目,训练过程被大大加速,实现了高达1.6倍至1.8倍的训练加速。
实验证明,MoPPS预测的题目难度与真实难度之间具有极高的相关性。
MoPPS兼容多种强化学习算法,支持不同采样策略并可引入先验信息。
这项研究为大模型强化微调领域提供了一个“降本增效”的利器。MoPPS的核心在于“先预测,再优化”范式,未来有望应用于更大规模的大模型强化学习后训练。
本文由主机测评网于2026-07-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260748554.html