当前位置:首页 > 科技资讯 > 正文

世界模型:概念膨胀与AGI之路

世界模型的概念,正变得如同现实世界一般错综复杂。

OpenAI将Sora生成的视频称为“世界模拟器”;Yann LeCun则批评Sora仅为像素幻觉,主张真正的世界模型应是“预测未来的抽象大脑”;谷歌DeepMind宣称Genie3为“可交互的通用世界模型”;而李飞飞则提出“空间智能”才是关键。

现实世界是唯一且客观的,但AI领域内每个人似乎都在构建自己的“世界模型”。

尽管定义各不相同,这些争论不休的专家们在一个基本点上达成一致:大语言模型终将受限,世界模型才是通向AGI的必由之路。

大语言模型在GPT-3.5后经历了参数膨胀,而世界模型在技术路线统一前,先经历了概念上的通货膨胀。

世界模型成为无所不包的概念

“世界模型”的混乱源于它代表一种目标:使AI具备理解外部世界规律并预测变化的能力,而非具体技术方法。

最初混乱的是概念本身。

世界模型的思想可追溯到1943年认知科学家Kenneth Craik提出的“心智模型”,即大脑通过构建外部世界的微型模型进行预测。换言之,我们心智中的模型不仅能处理当前信息,还能预测“如果我采取行动,世界将如何变化”。

虽然该理论在1990年代已引入强化学习,但真正使其在现代AI中崭露头角的是Jürgen Schmidhuber等人2018年的奠基论文《Recurrent World Models Facilitate Policy Evolution》。该论文首次系统定义了神经网络世界模型框架,当时它由视觉组件(VAE)、记忆组件(RNN)和控制器组成,在简单赛车游戏和二维射击游戏中训练。

七年过去,随着大语言模型的爆发,对通用人工智能的追求使这一概念近两年如“线面”般迅速蔓延。

Yann LeCun在2022年提出以世界模型为核心的“自主智能”,强调通过模块化设计和自监督学习获取抽象表征,并于2023年、2024年相继推出I-JEPA、V-JEPA预测模型。

李飞飞在2024年提出“空间智能”理念,创立World Labs,并发布Marble,主张世界模型需具备生成可交互3D环境的物理一致性能力。“对我而言,空间智能是创造、推理、互动、理解深层空间世界的能力,涵盖二维、三维甚至四维,包括动态元素。”

甚至OpenAI前首席科学家Ilya Sutskever提到的“压缩即智能”,本质上认为只要能无损压缩预测下一个token(无论文本或像素),模型内部便构建了世界映射。

一个抽象概念衍生出更多抽象概念。

抛开定义争论,从技术方向看,当前世界模型主要分为两大流派,对应两种不同世界观:表征派(Representation)与生成派(Generation)。

Yann LeCun属于“表征派”,这是一种不生成画面的极简主义路径。

类比人脑心智模型,我们对世界的预测和行动常基于直觉,而非物理公式或具体图像。因此,LeCun的世界模型是隐藏在系统后端的“大脑”,仅在表征处理后的潜在空间中运行,预测“抽象状态”。

世界模型:概念膨胀与AGI之路 世界模型 AGI 表征派 生成派 第1张

在推文中,LeCun明确定义世界模型需同时输入四个变量:先前世界状态估计s(t)、当前观察x(t)、当前动作a(t)、潜在变量z(t),结合这些预测下一时刻世界状态s(t+1)。

这一定义有两个关键:世界模型预测下一时刻“状态”而非画面,并能针对连续动作交互进行因果推断。

例如,当车辆驶近,它不会在脑中绘制车牌或反光,仅计算“障碍物接近”状态。此类模型不为展示,而为机器决策,追求逻辑因果推演,而非视觉逼真。LeCun提出的I-JEPA和V-JEPA,均摒弃生成式AI“预测每个像素”的做法,毕竟现实世界充满不可预测噪音(如树叶纹理),AI不应浪费算力生成细节。

第二大流派是当前声势最大的“生成派”,与Yann LeCun的核心区别在于,它旨在重建和模拟视觉世界。

该派常引用物理学家Richard Feynman的名言:“What I cannot create, I do not understand. —— 我若无法创造,便不能理解。”即,只要模型能生成正确世界,便证明它理解物理规律。

2024年初,OpenAI介绍Sora时称其为世界模拟器。OpenAI认为,只要数据足够庞大,模型就能通过预测下一帧像素,涌现出对物理规律的理解。通过学习数十亿视频片段,它记住了“人走路时腿交替”、“玻璃杯掉落破碎”的概率分布。

Sora作为世界模型争议颇大,最直接一点是它无法回应LeCun关于动作与世界状态的因果律——如果模型只能像放映电影般生成视频,而不能回答“如果我踢球,球会如何飞”这类动作交互,那么它可能仅记住了“球飞行轨迹概率”,而非理解“力学定律”。

那么,如果视频生成能根据用户动作输入实时预测下一帧呢?

于是,生成派衍生出更进阶形态:互动式生成视频(Interactive Generative Video),例如Genie3。

与Sora不同,IGV的区别在于实时性和可交互性,即引入动作(Action)。谷歌DeepMind发布的Genie 3,明确定义为“通用目的世界模型”。它允许用户进入场景并互动,支持生成720p分辨率、24fps帧率的实时画面。用户可自由导航,如以第一人称视角驾驶或探索复杂地形。这意味着模型不仅理解画面,还理解动作与环境变化的因果关系,尽管当前动作仅限于方向键上下左右。

世界模型:概念膨胀与AGI之路 世界模型 AGI 表征派 生成派 第2张

最后,是李飞飞倡导的“3D空间智能(Spatial Intelligence)”,以World Labs发布的Marble为代表。

如果说前两者处理视频流,那么Marble则尝试从底层构建持久、可下载的3D环境。

此路线的技术基础更接近“3D高斯泼溅(3D Gaussian Splatting)”。它不依赖传统网格建模,而是将世界表征为无数漂浮空间中的彩色模糊小点(高斯体)。通过微粒聚合,模型能渲染精美三维画面,并允许用户通过提示词生成、利用内置编辑器自由修改,支持一键导出至Unity等引擎。

尽管Marble距李飞飞所述空间智能尚有距离,但可见她认为实现空间智能的第一步是建立高精度、物理准确的3D空间。总结而言,区别于Sora,Marble生成符合物理规律的3D世界;区别于Genie3,Marble非实时生成,但精度和还原度更高。

世界模型:概念膨胀与AGI之路 世界模型 AGI 表征派 生成派 第3张

但这些技术路线的成果,均未达到各自理想的世界模型形态,甚至彼此激烈争论,各有支持者,这也导致“世界模型”概念外延无限扩展。

如今,任何涉及环境理解与模拟的上下游工程,无论是具身智能、自动驾驶、游戏视频等结构化垂直领域,还是生成式视频、多模态模型、视频理解、3D模型等技术,甚至视觉信息压缩的DeepSeek OCR,都主动或被动地与世界模型关联。

世界模型愈发像一个无所不包的概念容器。

泡沫与野心并存,世界模型作为“反LLM中心”叙事

若仅技术路线差异,不足以解释“世界模型”今年为何爆发。热潮背后,交织资本焦虑、技术瓶颈及对AGI的渴望。

我们须承认,其中存在巨大泡沫。

在创投圈,叙事常比代码更有价值。当“大语言模型”竞争格局既定,OpenAI、Google等占据基础模型市场,后来者及垂直应用开发者急需新故事吸引投资。

“视频生成模型”听来仅是工具软件,天花板有限;但一旦更名为“世界模型”,瞬间提升至AGI高度。

这也是当前AI时代有趣现象:科研人员大规模投身创业,学术与商业界限模糊。

在纯粹科研世界,所有创新须基于严谨公理。若要解决问题(如实现AGI),首先需精确定义问题。然而,当实验室变为公司,学术领袖成为CEO,原本局限于期刊的“定义之争”便进入商业领域。

在科研中,不同路线可共存;但在创业公司,资源有限,若A定义正确,B公司的数十亿投入可能付诸东流,一个定义差异,对应数亿算力投入方向、产业链备货、投资人价值重估。

而当我们抛开定义争夺与炒作,世界模型的兴起,亦如一场“反LLM中心主义”运动。

整个AI行业对大语言模型(LLM)产生集体技术焦虑。此焦虑源于LLM先天缺陷:它“离身”(Disembodied)。LLM在纯文本符号系统中训练,知“苹果”一词常与“红色”、“甜”关联,但从未真正“看见”苹果,也无法理解苹果掉落的重力加速度,更遑论随数据规模扩大,AI提升边际效益递减。

无论Ilya Sutskever离职OpenAI后强调的“超越大模型”,还是李飞飞提出的“空间智能”,核心在于一点:AI需从学习“人类语言”转向学习“世界事件”。行业正从单纯文本处理转向物理现实模拟与交互,因众人意识到,通往AGI的最后拼图不在互联网文本数据,而在真实物理世界。

只愿在世界模型真正诞生前,这一术语不被滥用。