当前位置：首页 > 科技资讯 > 正文

DreamPRM-1.5：从样本级加权迈向多模态推理新高度

【导读】DreamPRM-1.5由加州大学圣地亚哥分校的研究团队开发，在MMMU权威测评榜上取得了卓越表现。

近年来，大语言模型在推理能力上的进步显著，其中过程奖励模型（Process Reward Model, PRM）的提出，使模型能够在推理链条的中间步骤获得监督，从而选择更合理的解题路径。

这类方法在文本推理任务中已展现良好效果，但在扩展至多模态场景时，面临分布偏移和数据质量不均等挑战。

因此，如何在多模态推理中有效利用高质量样本，抑制噪声样本的负面影响，成为亟需解决的问题。

针对此，研究人员设计了新的训练框架，通过双层优化框架，将数据样本的权重作为可学习参数，动态改变数据样本在训练中的影响。

DreamPRM-1.5：从样本级加权迈向多模态推理新高度 DreamPRM-1.5 多模态推理样本加权双层优化第1张

DreamPRM-1.5：从样本级加权迈向多模态推理新高度 DreamPRM-1.5 多模态推理样本加权双层优化第2张

论文的第一作者为博士生Qi Cao，通讯作者为该校副教授Pengtao Xie。

从DreamPRM到DreamPRM-1.5：从领域加权到样本加权

此前，研究人员提出了DreamPRM框架，通过领域级重加权提升训练效果。在此基础上，DreamPRM-1.5将加权粒度细化到单个训练样本：

这种实例级重加权策略使模型能充分挖掘每条数据的价值。

DreamPRM-1.5：从样本级加权迈向多模态推理新高度 DreamPRM-1.5 多模态推理样本加权双层优化第3张

DreamPRM1.5的两种模型架构

为实现「样本级加权」，研究人员设计了两种互补方案：

Instance Table

为每个训练样本分配独立权重参数；灵活度高，适合小规模数据集；缺点是参数量与样本数挂钩，大规模数据难以支撑。

Instance Net

不直接存储权重表，而是用小型MLP网络预测每条数据的权重；参数量固定，不受数据规模限制；更适合大规模训练，泛化能力强。

DreamPRM-1.5采用双层优化框架：

下层优化：利用样本权重更新PRM；

DreamPRM-1.5：从样本级加权迈向多模态推理新高度 DreamPRM-1.5 多模态推理样本加权双层优化第4张

上层优化：在元数据集上评估推理表现，基于反馈动态更新样本权重；

DreamPRM-1.5：从样本级加权迈向多模态推理新高度 DreamPRM-1.5 多模态推理样本加权双层优化第5张

DreamPRM-1.5采用生成式奖励模型对推理过程进行评分。其核心是：

模型基座：采用InternVL3-1B作为PRM基础模型，并在推理阶段基于GPT-5-mini进行测试。

训练数据：从VisualPRM-400k中采样不同规模数据（12k、100k）分别训练Instance Table与Instance Net。

元数据集：使用MMMU-Pro标准分割（仅使用test set数据），生成候选推理链作为meta set，用于权重更新。

单卡NVIDIA A100，训练约72小时完成。

本文由主机测评网于2026-04-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260441604.html