当前位置:首页 > 科技资讯 > 正文

UNeMo框架:多模态世界模型与分层预测反馈引领视觉-语言导航新突破

实现机器人对指令的精准理解,推动导航性能全面升级!

深圳大学李坚强教授团队携手北京理工莫斯科大学等多所机构,近期创新性提出了视觉-语言导航(VLN)的全新框架——UNeMo

UNeMo框架:多模态世界模型与分层预测反馈引领视觉-语言导航新突破 视觉-语言导航  多模态世界模型 分层预测反馈 自主机器人导航 第1张

通过整合多模态世界模型分层预测反馈机制,该框架使导航智能体不仅能感知当前环境,还能前瞻性预测后续视觉状态,从而做出更加智能的决策。

与主流方法相比,UNeMo显著降低了计算资源消耗,在未知环境中的导航成功率高达72.5%,并在长轨迹导航任务中展现出卓越性能。

目前,这项研究成果已被AAAI 2026会议收录。

UNeMo框架:多模态世界模型与分层预测反馈引领视觉-语言导航新突破 视觉-语言导航  多模态世界模型 分层预测反馈 自主机器人导航 第2张

以下内容为您深入解析该技术的细节。

语言推理与视觉导航面临的“协同挑战”

作为具身人工智能的核心任务,视觉-语言导航要求智能体仅依靠视觉感知自然语言指令,在陌生环境中自主实现目标导航。

尽管大语言模型(LLM)的崛起推动了相关进展,但现有方法仍存在两大关键局限:

  • 推理模式单一:当前方法过度依赖语言推理,缺乏对视觉环境动态变化的预判能力,难以处理复杂场景;
  • 优化目标不一致:推理模块与导航策略通常独立训练,导致二者协同性不足,存在性能天花板。

双模块协同构建“预测-决策”一体化闭环

为此,研究团队设计了UNeMo框架,其核心创新在于建立了“多模态世界模型(MWM)+分层预测反馈导航器(HPFN)”的双向协同架构,将视觉状态推理与导航决策深度融合,从根本上破解了协同难题。

多模态世界模型实现未来视觉状态精准预测

MWM基于条件变分自编码器构建,核心功能是准确预测未来视觉状态。

它能够接收当前视觉特征、语言指令及候选导航动作,通过跨模态注意力机制融合多源信息,弥补了传统方法“仅关注当下”的不足。

该模型无需额外标注数据,即可通过导航决策结果进行反向反馈,持续优化预测精度,形成自适应学习循环。

UNeMo框架:多模态世界模型与分层预测反馈引领视觉-语言导航新突破 视觉-语言导航  多模态世界模型 分层预测反馈 自主机器人导航 第3张

高效分层预测反馈导航器的工作机制

HPFN采用两阶段分层策略平衡效率与精度:

首先基于当前视觉-语言特征生成粗粒度候选动作(a’)以确定导航方向,随后融合MWM预测的未来视觉状态优化出细粒度动作(a’’)以校正偏差,确保智能体在复杂环境中稳健导航。

UNeMo框架:多模态世界模型与分层预测反馈引领视觉-语言导航新突破 视觉-语言导航  多模态世界模型 分层预测反馈 自主机器人导航 第4张

推理与决策的动态闭环协同赋能

UNeMo架构最关键的突破在于形成了“推理-决策”相互增强的闭环优化。

MWM的视觉预测为导航提供前瞻性信息,提升决策准确性;导航的实际执行结果则实时反馈给MWM,优化其预测模型。

这种双向促进机制使智能体在导航过程中不断迭代进化,有效解决了传统LLM-based VLN方法中推理与决策脱节的痛点。

实验验证与性能分析

为全面评估UNeMo框架的价值,研究团队设计了多维度实验方案:

从核心场景的效率与性能平衡验证,到复杂场景的鲁棒性测试,再到跨基线与跨数据集的可扩展性验证,逐步展示其架构优势。

1、核心场景突破:R2R数据集上实现效率与性能双重优化

在VLN领域基准数据集R2R上的实验表明,UNeMo在轻量化设计高性能决策之间取得了关键平衡。

其采用的FlanT5-1.5B模型参数规模仅为主流方法NavGPT2所用FlanT5-5B的30%,但资源消耗大幅降低——

训练时GPU显存占用从27GB减少至12GB,降幅达56%;推理速度从每步1.1秒提升至0.7秒,效率提高40%。

这种“参数减少而性能不降”的特性,对VLN技术的实际部署具有重要意义。

同时,UNeMo在核心性能指标上依然领先。

在未见过的测试环境(test unseen)中,其导航成功率(SR)达到72.5%,较NavGPT2的71%提升1.5个百分点;路径效率(SPL)从60%提升至61.3%。

UNeMo框架:多模态世界模型与分层预测反馈引领视觉-语言导航新突破 视觉-语言导航  多模态世界模型 分层预测反馈 自主机器人导航 第5张

2、复杂场景鲁棒性:长路径导航任务表现卓越

为验证UNeMo在复杂场景中的适应能力,团队重点测试了其预探索机制对长距离导航鲁棒性的增强效果,在val-unseen数据集上对比UNeMo与NavGPT2在不同路径长度下的表现。

结果显示,UNeMo的优势在长轨迹导航中尤为明显:

短路径(长度<7)的导航成功率(SR)仅小幅提升1.2%(从71.1%至72.3%);而长路径(长度≥7)的SR大幅提升5.6%(从64.2%至69.8%),提升幅度是短路径的4.7倍

这证明了UNeMo的多模态预测与分层决策机制,能有效缓解长距离导航中的误差累积,解决了传统方法在长轨迹任务中性能下降的难题。

3、跨场景可扩展性:多基线与多数据集的广泛验证

为进一步验证UNeMo协同训练架构的通用性与可扩展性,团队将其迁移至不同类型的导航基线(如DUET)与目标导向导航数据集REVERIE,进行了跨场景测试。

UNeMo框架:多模态世界模型与分层预测反馈引领视觉-语言导航新突破 视觉-语言导航  多模态世界模型 分层预测反馈 自主机器人导航 第6张

实验结果表明,其在未见场景的导航成功率(SR)与远程目标定位成功率(RGS)指标上均有提高。

这表明UNeMo的协同训练架构不局限于LLM-based基线,能够灵活适配多样化的导航系统,在不同任务场景中发挥价值,验证了其强大的可扩展性。

总而言之,UNeMo针对传统VLN方法中推理与决策分离、资源消耗高等问题,以“多模态世界模型+分层预测反馈导航器”协同架构提供了创新解决方案。

其轻量化设计兼具高性能长路径导航稳健性跨场景适应力的优势,为VLN提供了高效可行的技术路径,有望推动服务机器人等实际应用落地,促进VLN领域的持续发展。

论文链接:https://arxiv.org/abs/2511.18845