当前位置：首页 > 科技资讯 > 正文

世界模型：概念膨胀与AGI之路

主机测评网
科技资讯
2026-02-04
758

世界模型的概念，正变得如同现实世界一般错综复杂。

OpenAI将Sora生成的视频称为“世界模拟器”；Yann LeCun则批评Sora仅为像素幻觉，主张真正的世界模型应是“预测未来的抽象大脑”；谷歌DeepMind宣称Genie3为“可交互的通用世界模型”；而李飞飞则提出“空间智能”才是关键。

现实世界是唯一且客观的，但AI领域内每个人似乎都在构建自己的“世界模型”。

尽管定义各不相同，这些争论不休的专家们在一个基本点上达成一致：大语言模型终将受限，世界模型才是通向AGI的必由之路。

大语言模型在GPT-3.5后经历了参数膨胀，而世界模型在技术路线统一前，先经历了概念上的通货膨胀。

世界模型成为无所不包的概念

“世界模型”的混乱源于它代表一种目标：使AI具备理解外部世界规律并预测变化的能力，而非具体技术方法。

最初混乱的是概念本身。

世界模型的思想可追溯到1943年认知科学家Kenneth Craik提出的“心智模型”，即大脑通过构建外部世界的微型模型进行预测。换言之，我们心智中的模型不仅能处理当前信息，还能预测“如果我采取行动，世界将如何变化”。

虽然该理论在1990年代已引入强化学习，但真正使其在现代AI中崭露头角的是Jürgen Schmidhuber等人2018年的奠基论文《Recurrent World Models Facilitate Policy Evolution》。该论文首次系统定义了神经网络世界模型框架，当时它由视觉组件（VAE）、记忆组件（RNN）和控制器组成，在简单赛车游戏和二维射击游戏中训练。

七年过去，随着大语言模型的爆发，对通用人工智能的追求使这一概念近两年如“线面”般迅速蔓延。

Yann LeCun在2022年提出以世界模型为核心的“自主智能”，强调通过模块化设计和自监督学习获取抽象表征，并于2023年、2024年相继推出I-JEPA、V-JEPA预测模型。

李飞飞在2024年提出“空间智能”理念，创立World Labs，并发布Marble，主张世界模型需具备生成可交互3D环境的物理一致性能力。“对我而言，空间智能是创造、推理、互动、理解深层空间世界的能力，涵盖二维、三维甚至四维，包括动态元素。”

甚至OpenAI前首席科学家Ilya Sutskever提到的“压缩即智能”，本质上认为只要能无损压缩预测下一个token（无论文本或像素），模型内部便构建了世界映射。

一个抽象概念衍生出更多抽象概念。

抛开定义争论，从技术方向看，当前世界模型主要分为两大流派，对应两种不同世界观：表征派（Representation）与生成派（Generation）。

Yann LeCun属于“表征派”，这是一种不生成画面的极简主义路径。

类比人脑心智模型，我们对世界的预测和行动常基于直觉，而非物理公式或具体图像。因此，LeCun的世界模型是隐藏在系统后端的“大脑”，仅在表征处理后的潜在空间中运行，预测“抽象状态”。

世界模型：概念膨胀与AGI之路世界模型 AGI 表征派生成派第1张

在推文中，LeCun明确定义世界模型需同时输入四个变量：先前世界状态估计s(t)、当前观察x(t)、当前动作a(t)、潜在变量z(t)，结合这些预测下一时刻世界状态s(t+1)。

这一定义有两个关键：世界模型预测下一时刻“状态”而非画面，并能针对连续动作交互进行因果推断。

例如，当车辆驶近，它不会在脑中绘制车牌或反光，仅计算“障碍物接近”状态。此类模型不为展示，而为机器决策，追求逻辑因果推演，而非视觉逼真。LeCun提出的I-JEPA和V-JEPA，均摒弃生成式AI“预测每个像素”的做法，毕竟现实世界充满不可预测噪音（如树叶纹理），AI不应浪费算力生成细节。

第二大流派是当前声势最大的“生成派”，与Yann LeCun的核心区别在于，它旨在重建和模拟视觉世界。

该派常引用物理学家Richard Feynman的名言：“What I cannot create, I do not understand. —— 我若无法创造，便不能理解。”即，只要模型能生成正确世界，便证明它理解物理规律。

2024年初，OpenAI介绍Sora时称其为世界模拟器。OpenAI认为，只要数据足够庞大，模型就能通过预测下一帧像素，涌现出对物理规律的理解。通过学习数十亿视频片段，它记住了“人走路时腿交替”、“玻璃杯掉落破碎”的概率分布。

Sora作为世界模型争议颇大，最直接一点是它无法回应LeCun关于动作与世界状态的因果律——如果模型只能像放映电影般生成视频，而不能回答“如果我踢球，球会如何飞”这类动作交互，那么它可能仅记住了“球飞行轨迹概率”，而非理解“力学定律”。

那么，如果视频生成能根据用户动作输入实时预测下一帧呢？

于是，生成派衍生出更进阶形态：互动式生成视频（Interactive Generative Video），例如Genie3。

与Sora不同，IGV的区别在于实时性和可交互性，即引入动作（Action）。谷歌DeepMind发布的Genie 3，明确定义为“通用目的世界模型”。它允许用户进入场景并互动，支持生成720p分辨率、24fps帧率的实时画面。用户可自由导航，如以第一人称视角驾驶或探索复杂地形。这意味着模型不仅理解画面，还理解动作与环境变化的因果关系，尽管当前动作仅限于方向键上下左右。

世界模型：概念膨胀与AGI之路世界模型 AGI 表征派生成派第2张