【导读】DreamPRM-1.5由加州大学圣地亚哥分校的研究团队开发,在MMMU权威测评榜上取得了卓越表现。
近年来,大语言模型在推理能力上的进步显著,其中过程奖励模型(Process Reward Model, PRM)的提出,使模型能够在推理链条的中间步骤获得监督,从而选择更合理的解题路径。
这类方法在文本推理任务中已展现良好效果,但在扩展至多模态场景时,面临分布偏移和数据质量不均等挑战。
因此,如何在多模态推理中有效利用高质量样本,抑制噪声样本的负面影响,成为亟需解决的问题。
针对此,研究人员设计了新的训练框架,通过双层优化框架,将数据样本的权重作为可学习参数,动态改变数据样本在训练中的影响。
论文地址:https://arxiv.org/abs/2509.05542
代码地址:https://github.com/coder-qicao/DreamPRM-1.5
论文的第一作者为博士生Qi Cao,通讯作者为该校副教授Pengtao Xie。
此前,研究人员提出了DreamPRM框架,通过领域级重加权提升训练效果。在此基础上,DreamPRM-1.5将加权粒度细化到单个训练样本:
这种实例级重加权策略使模型能充分挖掘每条数据的价值。
DreamPRM1.5的两种模型架构
为实现「样本级加权」,研究人员设计了两种互补方案:
Instance Table
为每个训练样本分配独立权重参数;灵活度高,适合小规模数据集;缺点是参数量与样本数挂钩,大规模数据难以支撑。
Instance Net
不直接存储权重表,而是用小型MLP网络预测每条数据的权重;参数量固定,不受数据规模限制;更适合大规模训练,泛化能力强。
DreamPRM-1.5采用双层优化框架:
下层优化:利用样本权重更新PRM;
上层优化:在元数据集上评估推理表现,基于反馈动态更新样本权重;
DreamPRM-1.5采用生成式奖励模型对推理过程进行评分。其核心是:
模型基座:采用InternVL3-1B作为PRM基础模型,并在推理阶段基于GPT-5-mini进行测试。
训练数据:从VisualPRM-400k中采样不同规模数据(12k、100k)分别训练Instance Table与Instance Net。
元数据集:使用MMMU-Pro标准分割(仅使用test set数据),生成候选推理链作为meta set,用于权重更新。
单卡NVIDIA A100,训练约72小时完成。
本文由主机测评网于2026-04-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260441604.html