当前位置:首页 > 科技资讯 > 正文

蚂蚁灵波新突破:LingBot-VA重塑机器人控制

惊人的消息,机器人开始学会预测未来了。

这就是蚂蚁灵波连续第4天开放的最新成果——

全球首个用于通用机器人控制的因果视频-动作世界模型,LingBot-VA

蚂蚁灵波新突破:LingBot-VA重塑机器人控制 LingBot-VA  机器人控制 因果视频模型 蚂蚁灵波 第1张

如何预测?

简而言之,过去的机器人(尤其是基于VLA的)主要是条件反射:看到什么,就做什么。

这称为“观察-反应”模式。

但LingBot-VA不同,它通过自回归视频预测打破了这种思维,动手前,先推演未来几秒的画面。

用想象力做决策,这在机器人控制中颇为新颖。

但这不是LingBot-VA唯一的亮点,还包括:

记忆不丢失:执行长序列任务(如做早餐)时,它记得自己做了什么,状态感知极强。

高效泛化:只需几十个演示样本,就能适应新任务;换个机器人也能操作。

蚂蚁灵波新突破:LingBot-VA重塑机器人控制 LingBot-VA  机器人控制 因果视频模型 蚂蚁灵波 第2张

因此,在LingBot-VA的帮助下,像清洗细小透明试管这样的高精度任务,机器人已轻松掌握:

如我们之前所说,今天是蚂蚁灵波连续第四天开源。

前几天的开源加强了机器人的眼睛(LingBot-Depth)、大脑(LingBot-VLA)和世界模拟器(LingBot-World),今天的LingBot-VA,则是给这具躯体注入了灵魂——

一个行动中的世界模型,让想象变为现实。

如此,通用机器人的上限被蚂蚁灵波推高了一大截。

网友表示:

从预测到执行,这是巨大的飞跃。

蚂蚁灵波新突破:LingBot-VA重塑机器人控制 LingBot-VA  机器人控制 因果视频模型 蚂蚁灵波 第3张

让想象力先行一步

LingBot-VA在架构设计上走得更远。

在传统VLA(视觉-语言-动作)范式中,模型通常会将视觉理解、物理变化推理、低层动作控制放在同一神经网络中处理,这被称为表征缠绕

为追求更高效率和泛化能力,LingBot-VA选择解开这团乱麻,提出新方案:先想象世界,再反推动作

为实现这一想法,蚂蚁灵波团队采用两步策略:

视频世界模型:预测未来的视觉状态。

逆向动力学:基于视觉变化,反推应执行的动作。

这与传统VLA有本质区别:它不直接从“现在”跳到“动作”,而是经过“未来”。

蚂蚁灵波新突破:LingBot-VA重塑机器人控制 LingBot-VA  机器人控制 因果视频模型 蚂蚁灵波 第4张

视频与动作的自回归交错序列

在LingBot-VA模型中,视频Token和动作Token被置于同一时间序列。

为保逻辑严密,团队引入因果注意力。这就像给模型定规矩:只能看过去的,不能窥未来。

同时,借助KV-cache技术,模型拥有长期记忆。它清楚自己三步前做了什么,任务不会忘。

蚂蚁灵波新突破:LingBot-VA重塑机器人控制 LingBot-VA  机器人控制 因果视频模型 蚂蚁灵波 第5张

Mixture-of-Transformers (MoT) 的分工协作

这一步主要解决表征缠绕问题。

可以理解为“左右互搏”但默契的配合:

视频流:负责繁重的视觉推演。

动作流:负责精准的运动控制。

这两个流共享注意力机制,信息互通但保持独立。这样,视觉复杂性不会干扰动作精准度,动作简单性也不会拉低视觉丰富度。

实验结果与能力验证

了解理论后,我们看实验效果。

蚂蚁灵波团队在真机实验和仿真基准上全面测试了LingBot-VA。

长时序任务:如准备早餐、拆快递。这些任务步骤多,一步错满盘皆输。但从LingBot-VA的表现来看,一个字:

蚂蚁灵波新突破:LingBot-VA重塑机器人控制 LingBot-VA  机器人控制 因果视频模型 蚂蚁灵波 第6张

...