当前位置：首页 > 科技资讯 > 正文

OneThinker：横扫31个基准，视觉模型界的通才来了！

主机测评网
科技资讯
2026-03-04
267

视觉模型领域迎来了一位“通才”——OneThinker，它一举横扫31个主流基准测试，并精通10类核心视觉任务。

由香港中文大学MMLab与美团研究团队共同开发的OneThinker，作为一个基于强化学习的统一多模态视觉推理模型，能够处理图像与视频两大模态下的十项核心视觉任务。

OneThinker：横扫31个基准，视觉模型界的通才来了！ OneThinker 多模态视觉推理强化学习通才模型第1张

在31项主流视觉任务测试中，OneThinker表现抢眼，不仅通过多任务训练实现了相互促进，还能在未见过的任务上展现合理推理，初步印证了通才模型的泛化潜力。

OneThinker：横扫31个基准，视觉模型界的通才来了！ OneThinker 多模态视觉推理强化学习通才模型第2张

尽管Vision-R1、Video-R1、VLM-R1等工作已在图像问答、视频理解、目标检测等任务上取得显著成果，

但这类RL模型大多存在一个共同局限：只能处理单一模态或单一任务，导致模态与任务间缺乏关联，推理能力碎片化，难以泛化应用。

那么OneThinker是如何突破这一瓶颈的呢？

从“专才模型”迈向“通才系统”

现实世界的视觉数据复杂多样，往往同时包含静态图像与动态视频信息，且任务类型高度多样化（如问答、定位、分割、追踪等）。

在此背景下，传统的“单任务、单模态”RL思考模型架构暴露出两大根本性问题：

无法统一建模现实复杂场景

真实应用常需同时理解图像与视频内容并协同完成多类任务，专才模型难以满足此类需求。

知识隔离，迁移受限

模型间彼此独立，缺乏知识共享机制，制约了推理能力在任务间的泛化与迁移。

为解决这些难题，研究团队提出了“通才思考模型”OneThinker，使其具备统一理解和推理不同模态、任务的能力。

OneThinker：横扫31个基准，视觉模型界的通才来了！ OneThinker 多模态视觉推理强化学习通才模型第3张

为了让OneThinker真正实现统一推理不同模态和任务，研究团队从两方面入手：一是构建统一的数据体系，二是优化多任务训练方法。

多模态统一任务数据构建

OneThinker：横扫31个基准，视觉模型界的通才来了！ OneThinker 多模态视觉推理强化学习通才模型第4张

要构建具备通用视觉推理能力的模型，首先需解决数据覆盖不足、任务割裂的问题。

为此，研究团队精心搭建了一套数据集，分别用于模型的SFT冷启动与强化学习训练：

OneThinker-600k

覆盖图像与视频两种模态，涵盖图像问答、视频问答、时空定位、分割、跟踪等十类核心视觉任务，用于强化学习阶段的主力训练数据。

OneThinker-SFT-340k

基于Seed1.5-VL对OneThinker-600k生成高质量的思维链样本并过滤，用于SFT阶段冷启动

通过图像与视频任务的联合训练，OneThinker能够在空间与时间维度上建立统一的推理能力，从而实现跨模态、多任务的通用理解。

EMA-GRPO：提升多任务RL训练稳定性

OneThinker：横扫31个基准，视觉模型界的通才来了！ OneThinker 多模态视觉推理强化学习通才模型第5张

传统强化学习方法在多任务、多模态场景中常面临训练不平衡问题。

不同任务的奖励结构差异较大（如检测任务奖励稠密，问答类任务则较稀疏），易导致样本间或任务间训练失衡。

为此，OneThinker引入了全新的EMA-GRPO（Exponential Moving Average Group Relative Policy Optimization）强化训练算法，通过对各任务奖励标准差进行滑动平均归一，解决了两个层面的不平衡问题：

任务内样本权重不均：缓解模型对低方差样本的过度依赖；

任务间梯度贡献失衡：防止稀疏任务在反向传播中占据主导，抑制其他任务学习。

实验结果表明，EMA-GRPO能显著提升强化学习阶段的训练稳定性与收敛速度，为大规模统一推理模型的多任务训练提供了有效支撑。

实验结果

为全面评估OneThinker的能力，研究团队在图像与视频两个模态下不同任务的31个主流 benchmark上进行了系统测试，覆盖图像问答、视频理解、空间定位、时间定位、目标分割、目标追踪等10类核心视觉任务。

OneThinker：横扫31个基准，视觉模型界的通才来了！ OneThinker 多模态视觉推理强化学习通才模型第6张

OneThinker在图像问答任务中表现优异，MMMU达70.6%，MathVerse达64.3%，视频理解方面VideoMMM取得66.2%的成绩。

OneThinker：横扫31个基准，视觉模型界的通才来了！ OneThinker 多模态视觉推理强化学习通才模型第7张

在时间定位和空间定位任务中，模型在RefCOCO testA的空间定位任务上取得93.7%的高分，Charades和ActivityNet的R@0.5分别达到68.3和43.6。

OneThinker：横扫31个基准，视觉模型界的通才来了！ OneThinker 多模态视觉推理强化学习通才模型第8张

同时，OneThinker在追踪任务GOT-10k上AO达73.0，视频分割任务ReasonVOS上J&F得分为54.9，体现了在感知类任务中的稳健表现，更多任务表现请参考原文。

OneThinker：横扫31个基准，视觉模型界的通才来了！ OneThinker 多模态视觉推理强化学习通才模型第9张

研究团队还发现，在某些任务和模态之间，OneThinker能实现有效的知识迁移与共享，不同任务间相互促进。

OneThinker：横扫31个基准，视觉模型界的通才来了！ OneThinker 多模态视觉推理强化学习通才模型第10张

此外，OneThinker在未见任务上展现出零样本能力，能直接适应点追踪、图像质量评估、GUI理解和旋转目标检测等任务，体现出强大的任务泛化能力。

可以说，OneThinker的推出不仅展示了强化学习在统一多模态、多任务视觉推理上的潜力，也为构建真正的视觉通才模型提供了清晰路径。

在大模型不断走向多模态、强推理、通才化的趋势下，OneThinker的工作或许只是一个起点，但它所验证的方向正成为通往通用视觉智能（AGI）的关键一环。

更多细节，请参考原文。

论文地址：https://arxiv.org/pdf/2512.03043

代码地址：https://github.com/tulerfeng/OneThinker

免费vps 免费服务器性价比服务器

本文由主机测评网于2026-03-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260328605.html

OneThinker：横扫31个基准，视觉模型界的通才来了！

从“专才模型”迈向“通才系统”

多模态统一任务数据构建

EMA-GRPO：提升多任务RL训练稳定性

实验结果

MacPlayCover金铲铲麦克风问题解决指南（详细步骤+常见原因）

PC安装macOS完整指南 (让你的普通电脑运行苹果系统的实用教程)

OneThinker：横扫31个基准，视觉模型界的通才来了！

从“专才模型”迈向“通才系统”

多模态统一任务数据构建

EMA-GRPO：提升多任务RL训练稳定性

实验结果

MacPlayCover金铲铲麦克风问题解决指南（详细步骤+常见原因）

PC安装macOS完整指南 (让你的普通电脑运行苹果系统的实用教程)

相关文章