惊人的消息,机器人开始学会预测未来了。
这就是蚂蚁灵波连续第4天开放的最新成果——
全球首个用于通用机器人控制的因果视频-动作世界模型,LingBot-VA。
如何预测?
简而言之,过去的机器人(尤其是基于VLA的)主要是条件反射:看到什么,就做什么。
这称为“观察-反应”模式。
但LingBot-VA不同,它通过自回归视频预测打破了这种思维,动手前,先推演未来几秒的画面。
用想象力做决策,这在机器人控制中颇为新颖。
但这不是LingBot-VA唯一的亮点,还包括:
记忆不丢失:执行长序列任务(如做早餐)时,它记得自己做了什么,状态感知极强。
高效泛化:只需几十个演示样本,就能适应新任务;换个机器人也能操作。
因此,在LingBot-VA的帮助下,像清洗细小透明试管这样的高精度任务,机器人已轻松掌握:
如我们之前所说,今天是蚂蚁灵波连续第四天开源。
前几天的开源加强了机器人的眼睛(LingBot-Depth)、大脑(LingBot-VLA)和世界模拟器(LingBot-World),今天的LingBot-VA,则是给这具躯体注入了灵魂——
一个行动中的世界模型,让想象变为现实。
如此,通用机器人的上限被蚂蚁灵波推高了一大截。
网友表示:
从预测到执行,这是巨大的飞跃。
LingBot-VA在架构设计上走得更远。
在传统VLA(视觉-语言-动作)范式中,模型通常会将视觉理解、物理变化推理、低层动作控制放在同一神经网络中处理,这被称为表征缠绕。
为追求更高效率和泛化能力,LingBot-VA选择解开这团乱麻,提出新方案:先想象世界,再反推动作
为实现这一想法,蚂蚁灵波团队采用两步策略:
视频世界模型:预测未来的视觉状态。
逆向动力学:基于视觉变化,反推应执行的动作。
这与传统VLA有本质区别:它不直接从“现在”跳到“动作”,而是经过“未来”。
视频与动作的自回归交错序列
在LingBot-VA模型中,视频Token和动作Token被置于同一时间序列。
为保逻辑严密,团队引入因果注意力。这就像给模型定规矩:只能看过去的,不能窥未来。
同时,借助KV-cache技术,模型拥有长期记忆。它清楚自己三步前做了什么,任务不会忘。
Mixture-of-Transformers (MoT) 的分工协作
这一步主要解决表征缠绕问题。
可以理解为“左右互搏”但默契的配合:
视频流:负责繁重的视觉推演。
动作流:负责精准的运动控制。
这两个流共享注意力机制,信息互通但保持独立。这样,视觉复杂性不会干扰动作精准度,动作简单性也不会拉低视觉丰富度。
了解理论后,我们看实验效果。
蚂蚁灵波团队在真机实验和仿真基准上全面测试了LingBot-VA。
长时序任务:如准备早餐、拆快递。这些任务步骤多,一步错满盘皆输。但从LingBot-VA的表现来看,一个字:稳
...
本文由主机测评网于2026-06-17发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260647978.html