当前位置:首页 > 科技资讯 > 正文

DreamPRM-1.5:从样本级加权迈向多模态推理新高度

【导读】DreamPRM-1.5由加州大学圣地亚哥分校的研究团队开发,在MMMU权威测评榜上取得了卓越表现。

近年来,大语言模型在推理能力上的进步显著,其中过程奖励模型(Process Reward Model, PRM)的提出,使模型能够在推理链条的中间步骤获得监督,从而选择更合理的解题路径。

这类方法在文本推理任务中已展现良好效果,但在扩展至多模态场景时,面临分布偏移和数据质量不均等挑战。

  • 分布偏移:多模态输入空间庞大,训练与推理分布差异显著;
  • 数据质量不均:大规模训练集包含噪声或低质量样本,降低有效监督信号。

因此,如何在多模态推理中有效利用高质量样本,抑制噪声样本的负面影响,成为亟需解决的问题。

针对此,研究人员设计了新的训练框架,通过双层优化框架,将数据样本的权重作为可学习参数,动态改变数据样本在训练中的影响。

DreamPRM-1.5:从样本级加权迈向多模态推理新高度 DreamPRM-1.5 多模态推理 样本加权 双层优化 第1张

论文地址:https://arxiv.org/abs/2509.05542

代码地址:https://github.com/coder-qicao/DreamPRM-1.5

DreamPRM-1.5:从样本级加权迈向多模态推理新高度 DreamPRM-1.5 多模态推理 样本加权 双层优化 第2张

论文的第一作者为博士生Qi Cao,通讯作者为该校副教授Pengtao Xie。

从DreamPRM到DreamPRM-1.5:从领域加权到样本加权

此前,研究人员提出了DreamPRM框架,通过领域级重加权提升训练效果。在此基础上,DreamPRM-1.5将加权粒度细化到单个训练样本:

  • 高质量样本获得更大权重;
  • 低质量或噪声样本权重降低。

这种实例级重加权策略使模型能充分挖掘每条数据的价值。

两种方法:Instance Table和Instance Net

DreamPRM-1.5:从样本级加权迈向多模态推理新高度 DreamPRM-1.5 多模态推理 样本加权 双层优化 第3张

DreamPRM1.5的两种模型架构

为实现「样本级加权」,研究人员设计了两种互补方案:

Instance Table

为每个训练样本分配独立权重参数;灵活度高,适合小规模数据集;缺点是参数量与样本数挂钩,大规模数据难以支撑。

Instance Net

不直接存储权重表,而是用小型MLP网络预测每条数据的权重;参数量固定,不受数据规模限制;更适合大规模训练,泛化能力强。

方法核心:双层优化(Bi-level Optimization)

DreamPRM-1.5采用双层优化框架:

下层优化:利用样本权重更新PRM;

DreamPRM-1.5:从样本级加权迈向多模态推理新高度 DreamPRM-1.5 多模态推理 样本加权 双层优化 第4张

上层优化:在元数据集上评估推理表现,基于反馈动态更新样本权重;

DreamPRM-1.5:从样本级加权迈向多模态推理新高度 DreamPRM-1.5 多模态推理 样本加权 双层优化 第5张

生成式奖励模型,面向推理过程的打分机制

DreamPRM-1.5采用生成式奖励模型对推理过程进行评分。其核心是:

  • 评分方式:模型在每一步输出「+」或「-」,表示推理是否合理;
  • 打分机制:通过softmax计算「+」的概率,作为该步骤的置信度;
  • 聚合策略:对整条推理链的步骤分数进行聚合(平均),与标准答案对比,指导样本权重更新。

实验设计与实现细节

模型基座:采用InternVL3-1B作为PRM基础模型,并在推理阶段基于GPT-5-mini进行测试。

训练数据:从VisualPRM-400k中采样不同规模数据(12k、100k)分别训练Instance Table与Instance Net。

元数据集:使用MMMU-Pro标准分割(仅使用test set数据),生成候选推理链作为meta set,用于权重更新。

训练流程:

  • 冷启动:先进行一次有监督微调(20k样本),使模型稳定输出「+/-」标记;
  • 双层优化:在此基础上进行100k步迭代,采用AdamW优化器与余弦学习率调度。

计算资源:

单卡NVIDIA A100,训练约72小时完成。