当前位置：首页 > 科技资讯 > 正文

具身智能的新纪元：从VLA到世界模型

主机测评网
科技资讯
2026-07-05
268

2025年，具身智能领域的热点词汇非VLA（视觉-语言-动作模型）莫属。

它迅速成为全行业的共识，被视为具身基础模型的标准答案。这一年，资本和算力如潮水般涌入这个赛道，各大模型大厂纷纷采用这一范式。

然而，现实物理世界给所有从业者泼了一盆冷水。VLA在物理动作执行上显得力不从心。

它能理解极其复杂的文字指令，但在机械臂实际抓取时，可能连如何调整手腕姿态以避开杯柄的阻挡都做不到，更不用说执行解开鞋带这种涉及复杂物理形变的动作了。

另一个让VLA头疼的问题是泛化能力。原本，大家希望通过模型更新来提高泛化能力，不再为每个特殊环境编程。然而，一旦超出训练规定环境，VLA几乎无法泛化。

整个行业将泛化无力归咎于数据不足。大厂们开始投入巨资，通过各种方式采集数据，试图用海量模拟演示填补VLA的常识空缺。

2026年初，英伟达（NVIDIA）发布了两篇论文《DreamZero: World Action Models are Zero-shot Policies》和《DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos》，提出了一套全新的具身智能基础模型范式，打破了数据内卷的僵局。

具身智能的新纪元：从VLA到世界模型具身智能世界模型 VLA 零样本泛化第1张

这两篇论文共同提出一个完全从视频中学习、Zero-shot（零样本）就能泛化执行不同工作的具身模型的可能性。

01 VLA缺的不是数据，而是世界模型

要理解DreamZero和Dream Dojo的颠覆性，必须先从底层剖析VLA的系统性缺陷。

VLA的最大问题，就是缺乏世界模型。它的底层架构限制了其认知方式。从谱系上看，VLA与LLM（大型语言模型）的亲缘更强，反而与纯视觉、纯物理的亲缘较弱。

它通过交叉注意力机制将图像的像素块映射到文本的语义空间中，在这个空间里，它理解了杯子和桌子的概念及它们在二维画面中的相对位置。

但物理世界不是二维的语义切片。它是连续的，充满了质量、摩擦力、重力和几何碰撞。

VLA对物理动作和世界的理解相对较弱，因为它本质上是一个“翻译器”。

我们可以用物理学中的状态转移方程来解释。一个完整的世界模型，本质上在学习一个条件概率分布：在给定当前世界的状态和机器人即将执行的动作时，预测世界下一秒会变成什么样。

VLA从未学过这个方程。它学习的是静态视觉观测+语言指令直接映射到可执行动作的函数关系，却没被系统性地训练去预测动作后果、做反事实试错。

因此，一旦环境、材质、约束关系稍微变形，其性能就会断崖式下滑。

与之对比的是视频生成模型。Veo3、Sora 2和Seedance 2生成的物理交互画面已经相当逼真。这说明大规模视频生成模型在海量的互联网视频中，可能已隐式地压缩并内化了物理世界的基础运行规律。

视频生成之前主要被用在给VLA提供模拟数据，而不是整合进机器人的工作流中。

其实，利用视频生成模型来控制机器人的念头并非从此开始。在DreamZero之前，学术界和工业界也提出了多个解决方法。但这些方法无一例外地陷入了工程和逻辑的死胡同。

02 DreamZero，以世界模型为基地的具身智能

针对过去利用视频生成模型构建机器人动作所面对的三个主要问题——分步导致的对齐问题、合一模式太差和太慢的问题——英伟达先用DreamZero给出了一条解决方法。

具身智能的新纪元：从VLA到世界模型具身智能世界模型 VLA 零样本泛化第2张

首先，DreamZero采用了视频和动作预测同步端到端训练的方式。

具身智能的新纪元：从VLA到世界模型具身智能世界模型 VLA 零样本泛化第3张

其次，针对UVA的时空错乱问题，DreamZero彻底抛弃了早期的双向架构，转而构建了一个14B参数的自回归 Diffusion Transformer (DiT)。

具身智能的新纪元：从VLA到世界模型具身智能世界模型 VLA 零样本泛化第4张

最后，为了解决生成慢的问题，DreamZero发明了DreamZero-Flash技术。

具身智能的新纪元：从VLA到世界模型具身智能世界模型 VLA 零样本泛化第5张

这一系列改造使DreamZero展现出了视频生成世界模型的恐怖潜力。

03 世界模型需要的数据，和VLA不一样

在 DreamZero 的实验中，英伟达发现了一个反直觉的结论：数据多样性比数据重复量更重要。

04 下一步，是把世界模型训练的更好

DreamZero的意义在于证明了基于世界模型的动作模型（WAM）这条路能走通且能很好地泛化。

05 这，很可能是具身智能的范式转变

DreamZero的出现敲响了具身智能纯VLA时代的丧钟。

性价比服务器高防服务器性价比vps

本文由主机测评网于2026-07-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260748725.html

上一篇

D-CHAG：破解大规模模型训练瓶颈的创新方法

下一篇

2026年光学赛道：连接为王，AI时代下半场的关键