【前沿导读】来自中山大学与穆罕默德·本·扎耶德人工智能大学(MBZUAI)的研究团队联合提出SpatialDreamer框架,该框架借助主动心理模拟与空间认知推理,大幅提升了模型在复杂三维空间任务中的表现。通过模拟人类主动探索、内心想象与逻辑推演的认知闭环,有效克服了当前模型在视角变换、遮挡推断等任务上的瓶颈,为构建具备类人空间智能的人工智能系统奠定了新基础。
尽管当前多模态大语言模型(MLLMs)在图像描述、视觉问答等场景理解任务上已展现出强大能力,但在涉及心理旋转、视角变换、遮挡物体定位等需要深层次空间想象的任务中,其推理能力依然远逊于人类。
现有主流方法大多局限于对静态空间数据的被动解析,未能赋予模型人类所特有的主动构建心理意象并动态修正内部空间表征的认知机制。
以判断遮挡物体位置为例,当需要从不同视角进行推断时,传统模型由于缺乏灵活的心理视角切换能力,常常因信息不足导致推理错误。
为突破上述局限,MBZUAI与中山大学联合团队提出了SpatialDreamer——一种基于强化学习的空间认知框架。该框架通过构建“主动探索—视觉想象—证据融合”的闭环推理流程,使MLLMs能够像人类一样在内心进行空间模拟与动态决策。
论文链接: https://arxiv.org/pdf/2512.07733
SpatialDreamer的核心思想在于模仿人类空间认知的三阶段闭环:
1) 主动探索:模型依据当前观察到的场景信息,自主决策出最具信息增益的自我中心动作,例如“前进0.75米”以接近目标,或“左转45度”以获取侧方视角;
2) 心理想象:调用内置的世界模型(例如SVC,Scene-Conditioned Video Continuation)根据当前状态和选定动作,合成执行动作后新视角下的视觉场景,实现内部视觉模拟;
3) 证据融合与推理:将初始观察与通过想象生成的多视角视觉证据进行整合,基于完整的空间认知链输出最终答案。
这一机制成功将模型从“被动接收信息”提升至“主动目标导向的心理想象”,使其能够在内部构建的三维认知地图中自主规划观察视角、选取关键线索并完成逻辑推理。
针对长时序空间推理任务中反馈信号稀疏、优化困难的挑战,研究团队进一步设计了GeoPO策略优化算法,该算法融合树状探索采样与几何一致性约束,显著提升训练效率与推理质量:
1) 树状分支采样:在每个决策点生成多个候选动作分支,允许模型回溯错误路径并探索多种空间策略;
2) 分层奖励机制:结合任务完成与否的全局奖励与每一步动作效率的局部奖励,提供密集且可解释的反馈信号;
3) 几何一致性惩罚:针对无效探索(如连续同方向移动或反复折返)引入惩罚因子(例如0.9),有效抑制冗余路径,促使模型生成更紧凑、合理的空间轨迹。
实验表明,GeoPO不仅带来了任务成功率的显著提升,还大幅缩短了策略网络的收敛时间。
为了使模型更好地掌握“思考—想象—回答”的推理范式,团队构建了专用的SpatialDreamer-SFT微调数据集。该数据集包含两类样本:一是单轮推理数据(single-pass),即直接根据场景给出答案;二是反思式推理数据(reflective reasoning),通过“主动注入错误→模型自我纠正→重构完整推理路径”的方式生成,显著增强了模型的容错与自我修正能力。
研究团队在多个具有挑战性的空间推理基准上对SpatialDreamer进行了系统评估,结果如下:
1) SAT基准测试:无论是在真实场景图像还是合成图像上,SpatialDreamer均刷新了当前最优成绩(SOTA),平均准确率分别达到93.9%与92.5%;
2) MindCube-Tiny数据集:整体推理准确率达到84.9%,相比基线模型Qwen2.5-VL-7B,性能提升幅度超过55个百分点;
3) VSI-Bench综合评估:在物体数量统计、相对方位判断、路径规划等多个子任务上均取得领先表现,平均准确率达62.2%。
SpatialDreamer的价值远不止于在具体任务上取得更高准确率——它首次系统性地证明了多模态大语言模型能够借助“心理想象”来增强空间推理能力,这为最终实现与人类相媲美的空间智能迈出了具有里程碑意义的一步。
参考资料:论文原文 https://arxiv.org/pdf/2512.07733
本文由主机测评网于2026-02-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260224988.html