2025年,具身智能领域的热点词汇非VLA(视觉-语言-动作模型)莫属。
它迅速成为全行业的共识,被视为具身基础模型的标准答案。这一年,资本和算力如潮水般涌入这个赛道,各大模型大厂纷纷采用这一范式。
然而,现实物理世界给所有从业者泼了一盆冷水。VLA在物理动作执行上显得力不从心。
它能理解极其复杂的文字指令,但在机械臂实际抓取时,可能连如何调整手腕姿态以避开杯柄的阻挡都做不到,更不用说执行解开鞋带这种涉及复杂物理形变的动作了。
另一个让VLA头疼的问题是泛化能力。原本,大家希望通过模型更新来提高泛化能力,不再为每个特殊环境编程。然而,一旦超出训练规定环境,VLA几乎无法泛化。
整个行业将泛化无力归咎于数据不足。大厂们开始投入巨资,通过各种方式采集数据,试图用海量模拟演示填补VLA的常识空缺。
2026年初,英伟达(NVIDIA)发布了两篇论文《DreamZero: World Action Models are Zero-shot Policies》和《DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos》,提出了一套全新的具身智能基础模型范式,打破了数据内卷的僵局。
这两篇论文共同提出一个完全从视频中学习、Zero-shot(零样本)就能泛化执行不同工作的具身模型的可能性。
要理解DreamZero和Dream Dojo的颠覆性,必须先从底层剖析VLA的系统性缺陷。
VLA的最大问题,就是缺乏世界模型。它的底层架构限制了其认知方式。从谱系上看,VLA与LLM(大型语言模型)的亲缘更强,反而与纯视觉、纯物理的亲缘较弱。
它通过交叉注意力机制将图像的像素块映射到文本的语义空间中,在这个空间里,它理解了杯子和桌子的概念及它们在二维画面中的相对位置。
但物理世界不是二维的语义切片。它是连续的,充满了质量、摩擦力、重力和几何碰撞。
VLA对物理动作和世界的理解相对较弱,因为它本质上是一个“翻译器”。
我们可以用物理学中的状态转移方程来解释。一个完整的世界模型,本质上在学习一个条件概率分布:在给定当前世界的状态和机器人即将执行的动作时,预测世界下一秒会变成什么样。
VLA从未学过这个方程。它学习的是静态视觉观测+语言指令直接映射到可执行动作的函数关系,却没被系统性地训练去预测动作后果、做反事实试错。
因此,一旦环境、材质、约束关系稍微变形,其性能就会断崖式下滑。
与之对比的是视频生成模型。Veo3、Sora 2和Seedance 2生成的物理交互画面已经相当逼真。这说明大规模视频生成模型在海量的互联网视频中,可能已隐式地压缩并内化了物理世界的基础运行规律。
视频生成之前主要被用在给VLA提供模拟数据,而不是整合进机器人的工作流中。
其实,利用视频生成模型来控制机器人的念头并非从此开始。在DreamZero之前,学术界和工业界也提出了多个解决方法。但这些方法无一例外地陷入了工程和逻辑的死胡同。
针对过去利用视频生成模型构建机器人动作所面对的三个主要问题——分步导致的对齐问题、合一模式太差和太慢的问题——英伟达先用DreamZero给出了一条解决方法。
首先,DreamZero采用了视频和动作预测同步端到端训练的方式。
其次,针对UVA的时空错乱问题,DreamZero彻底抛弃了早期的双向架构,转而构建了一个14B参数的自回归 Diffusion Transformer (DiT)。
最后,为了解决生成慢的问题,DreamZero发明了DreamZero-Flash技术。
这一系列改造使DreamZero展现出了视频生成世界模型的恐怖潜力。
在 DreamZero 的实验中,英伟达发现了一个反直觉的结论:数据多样性比数据重复量更重要。
DreamZero的意义在于证明了基于世界模型的动作模型(WAM)这条路能走通且能很好地泛化。
DreamZero的出现敲响了具身智能纯VLA时代的丧钟。
本文由主机测评网于2026-07-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260748725.html