世界建模：下一代预训练范式

继“下一个词预测”之后，世界建模正逐步成为新的预训练范式。

这是英伟达机器人主管Jim Fan的最新判断。

世界建模：下一代预训练范式世界建模预训练范式物理AI 多模态AI 第1张

他认为，2026年将成为大世界模型（Large World Models）为机器人领域及多模态AI奠定基础的元年。

谢赛宁对此表示赞同：“未来显而易见”。

世界建模：下一代预训练范式世界建模预训练范式物理AI 多模态AI 第2张

在文中，Jim Fan探讨了世界模型的定义与应用，特别是物理AI的发展，并展望了新的推理形式：

世界建模（world modeling）是在给定动作条件下，预测下一个合理的世界状态（或更长时间范围内的状态）。

当前世界模型的主要焦点在AI视频领域，而2026年将见证物理AI的爆发。

世界模型需要更广泛的预训练目标：下一个世界状态不仅包含RGB，还必须涵盖3D运动、本体感觉与触觉。

将出现新的推理形式：在视觉空间中的思维链，而非语言空间中的思维链。

第二个预训练范式

下一个词预测曾是首个预训练范式，现在我们正经历第二次范式转变：

世界建模（world modeling）或“下一个物理状态预测”。

很少有人真正理解这一转变的深远意义。目前，世界模型最被炒作的应用仍是AI视频（接下来可能是游戏）。

我坚信：2026年将成为大世界模型首次为机器人领域及多模态AI奠定坚实基础的一年。

在此背景下，我将世界建模定义为：在给定动作条件下，预测下一个合理的世界状态（或更长时间范围内的状态）。

视频生成模型是其中一种实现形式，“下一个状态”是一系列RGB帧（通常为8–10秒，最长可达数分钟），而“动作”是描述要执行什么的文本。

训练过程是对数十亿小时视频像素的未来变化进行建模。

本质上，视频世界模型是可学习的物理模拟器和渲染引擎。

它们能捕捉反事实情景，即预测不同动作下未来的变化——这就是推理。世界模型以视觉为中心。

相比之下，VLM以语言为中心。从最早的原型（如LLaVA）开始，整体路径一致：视觉在编码器处进入，然后送入语言主干网络。

随着时间的推移，编码器不断改进，架构变得更简洁，视觉变得更“原生”（如全模态模型）。

然而，视觉仍是二等公民，无法与LLM多年构建的能力相比。这条路线方便，因为我们熟悉LLM的扩展性、架构设计、数据配方和评测指标（如VQA）。

总体来看，这篇新文章可视为Jim Fan在2025年机器人年终总结中第三点的延伸与展开。

世界建模：下一代预训练范式世界建模预训练范式物理AI 多模态AI 第3张

当时，他提出：基于VLM的路线主要服务于语言和知识，而非物理世界本身。

世界建模：下一代预训练范式世界建模预训练范式物理AI 多模态AI 第4张

本文由主机测评网于2026-07-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260748330.html