当前位置：首页 > 科技资讯 > 正文

AI竞赛新纪元：世界模型崛起与拓元智慧的VWA架构突破

主机测评网
科技资讯
2026-01-31
276

在当今人工智能领域的激烈角逐中，Meta及其创始人扎克伯格无疑是策略最为激进的参与者，甚至没有之一。

过去一年间，扎克伯格不惜重金、广纳贤才，致力于打造全球顶尖的AI产品团队，经常为拥有OpenAI、Anthropic等头部公司经验的人才提供高达1亿美元的“跳槽奖励”。其中，最为引人注目的一笔投资是为了吸引天才少年汪涛加入Meta，扎克伯格直接以148亿美元收购了汪涛创立的Scale AI，将整个团队收入麾下。

此外，扎克伯格还整合了前Y Combinator合伙人丹尼尔·格罗斯（Daniel Gross）旗下的风险投资基金NFDG，并邀请NFDG的两位合伙人——丹尼尔·格罗斯与前GitHub首席执行官、知名科技播客“Hacker Medley”主持者纳特·弗里德曼（Nat Friedman）加入Meta，计划组建Meta成立以来的首支产业投资基金（CVC）。

更为关键的是，扎克伯格手中握有一张重要王牌：Meta的首席科学家杨立昆（Yann LeCun）。

杨立昆是谁？他是计算机科学最高奖项图灵奖得主、AI教父杰弗里·辛顿（Geoffrey Hinton）的弟子、OpenAI前首席科学家伊利亚（Ilya Sutskever）的同门师兄，更是神经网络反向传播学习算法的奠基人。可以说，在人工智能的江湖中，杨立昆是足以帮助Meta开创新局的宗师级人物。

然而，就在万事俱备、准备大展拳脚之际，这张王牌却出人意料地宣布：杨立昆将于年底离开Meta，创办自己的公司。他认为“当前的大语言模型甚至不如猫聪明，对物理世界的认知能力极其有限”，并断言这条技术路线是“死胡同”——若要实现真正的“通用人工智能（AGI）”，必须专注于另一条路径：“世界模型”（world models）。

这一消息迅速在全球科技界引发轰动，“世界模型”旋即成为热门话题。人们纷纷探讨：“究竟什么是世界模型？”“世界模型与我们熟悉的大语言模型，本质区别何在？”

在中国，也有一批科学家正在思考同样的问题，他们不拘泥于杨立昆的理论框架，试图提出自己的解决方案。据投中网了解，近日，由鹏城实验室孵化、专注于“物理空间智能模型”研发的「拓元智慧」宣布完成数亿元Pre-A轮系列融资，引入了上市公司东方精工、星宸科技、金牌家居关联基金德韬资本、石溪资本等多家战略及产业投资方，以及粤科创业等重量级国资投资平台，鹏城愿景、红鸟启航基金等科研机构基金。深蓝资本担任长期独家财务顾问。

据悉，本轮融资资金将主要用于物理空间智能模型的研发投入、增强模型的物理推理与跨场景迁移能力、构建具身智能生态并加速相关产品的商业化落地。

什么是“世界模型”？

为何大语言模型被视为死胡同？研究人类大脑一生的杨立昆指出，人类能够进行推理和规划，源于我们拥有记忆、直觉和常识，而大语言模型的工作原理仅是预测下一个最合理的词元，图像/视频模型则是预测下一个最合理的像素。

换言之，尽管这些模型已展现出卓越的推理能力，但仅局限于“词元”和“像素”层面，并未真正理解三维世界。以一个简单现实场景为例：当描述“门宽80厘米、桌子50厘米、人的肩宽55厘米”时，当前的语言模型往往会逐项比较数字，得出“都比门窄，因此可一起通过”的结论，完全忽略了并排时的组合宽度、旋转引起的投影变化、姿态调整限制以及物体间的不可穿透性等基本物理规律。这种错误不仅是知识缺失，更是缺乏对物理空间的真正理解，凸显了当前AI无法成为可靠物理世界参与者的根本原因。

更务实地说，大语言模型虽然在文本推理与知识处理上取得进展，但在理解真实物理空间、进行连续动作规划以及与环境实时交互方面仍存在根本缺陷。这些缺陷不仅让AGI的实现变得遥不可及，更直接限制了人工智能技术向具身智能等实际应用场景的拓展。

例如，由于模型无法准确理解空间结构与几何关系，机器人在执行简单任务时常常出现“对不准、抓不到、绕不开、走不直”等失败情况。在抓取任务中，机械臂可能因误判目标位置而多次空抓，或在移动时与桌角、墙壁发生轻微碰撞，显示出对距离、可达性和避障条件的错误估计。在更复杂场景中，模型甚至可能生成违反物理规律的行为规划，如让机械臂穿越障碍物、使移动平台驶向无法通行的狭窄缝隙，或在倾斜平面上输出不稳定的轨迹。此外，这些系统高度依赖训练场景，当光照变化、物体位置微调或视角偏差时，其性能会大幅下降，导致同一指令在不同场景中的执行结果天差地别。

总之，若要让人工智能真正具备人类级的学习能力，就必须帮助大模型深入理解我们的“物理世界”，这条技术路径即被称为“世界模型”。杨立昆表示：“世界模型是你对世界运行方式的心理模型。你可以想象一系列可能采取的行动，而你的世界模型将使你能够预测这些行动将对世界产生何种影响。”

知名华人科学家李飞飞也持相同观点。她认为人工智能未来十年的主要方向应是具备空间智能的“世界模型”。判断是否拥有“空间智能”的标准在于：能否生成符合物理定律且空间一致的世界，处理从图像到动作的多模态输入，并预测这些世界将如何演化或与之互动。

AI竞赛新纪元：世界模型崛起与拓元智慧的VWA架构突破人工智能世界模型拓元智慧 VWA模型第1张

当然，当前出现所谓的“路线之争”，并非因为其他大模型开发者不认可“世界模型”的价值，而是其中存在诸多挑战。

从数字世界迈向真实世界，一项核心能力是判断在真实世界中执行的动作并与之交互。目前主流的大模型架构，即视觉—语言—动作模型（VLA），存在两个难以回避的缺陷，即便引入世界模型也难以完全解决：

第一，VLA通常先将视觉输入压缩到语言token空间，这一过程天然会丢失连续空间中关键的几何、拓扑与物理量信息，使模型难以理解精确位置关系，从而在动作控制上产生偏差，甚至输出违背物理约束的操作序列；

第二，VLA的泛化能力极为有限。真实世界具有高度复杂性与多样性，而具身智能又对视角变化、环境布局、物体遮挡及动态条件极度敏感。这些因素相互交织，使得VLA模型在训练场景中表现良好，却难以迁移到新环境。一旦背景、光照或物体位置发生微小变化，模型的感知—推理—动作链条就可能彻底崩溃。

可以说，这两个瓶颈直接导致AI在物理空间中的能力严重不足，也让当前的“通往AGI之路”看起来像个无底洞。一个侧面例证是，在2025年10月——杨立昆宣布离职创业的前一个月——扎克伯格曾公开表示，为保持行业竞争力，Meta明年的支出将超过1000亿美元。这一言论直接引发了人们对“大模型烧钱”的焦虑，严重考验了投资者的耐心，导致10月下旬Meta股价暴跌12.6%，市值蒸发近2400亿美元。

“VWA”，让“世界模型”更有可能？

那么，我们应如何真实、高效地开发“世界模型”呢？李飞飞、杨立昆在思考，中国的科学家们也在探索，拓元智慧便是其中之一。

AI竞赛新纪元：世界模型崛起与拓元智慧的VWA架构突破人工智能世界模型拓元智慧 VWA模型第2张

拓元智慧是鹏城实验室智算生态构建的首批企业，核心创业团队由国内外顶尖AI学者组成，包括AI领域青年领袖科学家王广润博士（华为天才少年计划最高级别入选者）、国家级青年人才王可泽博士（吴文俊人工智能科学奖得主）、中大-拓元联合实验室负责人梁小丹博士（阿里巴巴青橙奖得主）。

他们给出的答案是“VWA”，即Vision-World-Action模型，这是一种区别于VLA模型的全新架构。

拓元团队认为，制约当前大模型能力提升的关键瓶颈在于模型普遍缺乏泛化性。要打破这一瓶颈，需将整体能力解耦为“物理建模”与“空间建模”两大模块。通过这种拆分，模型能够获得高度通用、跨环境稳定的物理建模能力；而真正影响泛化性的部分，仅存在于对具体场景的空间建模上。这一机制与人类操控陌生环境中的机器人行为高度一致：人类并非天生具备“泛化性”，而是依靠在新环境中快速适应空间布局来完成任务。

VWA正是基于这一思路设计。与VLA必须将视觉信息压缩到语言token空间不同，VWA模型可以直接在物理空间进行推理与决策，在连续物理空间中进行多步推演、预测未来状态变化，从而在规划、安全评估与稳定控制方面迈出关键一步。

实现VWA模型架构的核心，是拓元开发的物理自回归模型（Physical Autoregressive Model, PAR）。PAR模型通过将视频帧与机器人动作共同编码为“物理token”，使模型能够以自回归方式逐步预测下一步视频与动作，形成“预测—执行—再预测”的闭环。尤为关键的是，PAR模型在无需进行动作预训练的前提下，即可有效学习物理世界的动态规律，在机器人操作基准ManiSkill的PushCube任务上实现了100%的成功率，并在多项任务中媲美需动作预训练的强基线模型。这一成果显著推进了从大规模视频预训练模型向真实世界机器人操控能力迁移的技术路径，为构建具备通用物理常识的具身智能奠定了重要基础。

其次，在底层推理机制上，拓元开发了全新的Tweedie Framework，显著提升了动作控制的准确性；同时引入高效的Eon计算机制，大幅增强了模型的运行效率与长序列建模能力。两者结合，为构建更可靠、更智能、更具泛化能力的物理空间智能奠定了坚实基础。

在数据层面，拓元智慧引入了多源且高质量的物理数据，主要包括：（1）具备空间信息的真实人类抓取及自然场景数据：基于真实业务场景采集的数十亿级双目与多目视觉数据，覆盖多种真实环境和多样化任务场景，具有高度一致的空间结构信息与自然连续的人类动作轨迹。相较于现有以仿真或摆拍为主的数据，这类真实任务数据在规模、多样性与真实性上均具有显著优势，并通过丰富的3D空间线索，支持对海量物体进行精细的空间理解与语义解析。（2）训练场仿真数据：依托虚实孪生的具身智能训练场，通过高保真3D物理环境重建与逼真的物体资产构建，生成大规模物理仿真数据与仿真遥操作数据，为模型提供可控、可扩展、可重复的训练条件。

依托全新的模型架构和海量的真实预训练数据，模型开发效率大幅提升，适配所需的数据极少（甚至仅需一条示例数据），所涉及的参数规模也极小（例如在数百亿参数的模型中，仅更新约4000个参数）。更重要的是，模型能在新环境中实现在线快速适配。以家庭机器人为例：一个家务机器人不再需要漫长的学习与适应步骤，只需对新的空间布局进行快速建模，即可立即投入使用。

在这样的前景下，拓元智慧自成立之初便获得了资本市场的广泛关注。自2022年成立至今，拓元智慧已完成了多轮市场化融资，投资方涵盖卓源资本、源数资本、红鸟启航基金、银杏谷资本等市场化机构，以及粤科金融集团、鹏城愿景基金等国资背景平台。

本轮投资方均在各自专注领域拥有深厚的资源背景与战略布局，进一步印证了资本市场对拓元智慧技术与发展前景的认可。例如，投资方之一东方精工是高端智能装备制造龙头企业。目前，东方精工以“构建具身智能机器人全产业链生态、赋能传统产业智能化升级”为核心，前瞻性布局人工智能+具身智能机器人赛道，已形成覆盖机器人本体制造、多模态大模型智能大脑端研发、应用场景拓展的全产业布局。

星宸科技是全球领先的视觉AI SoC芯片设计企业，视觉AI SoC全球市占率第一（出货量第一）、机器人视觉AI SoC市占率位居全球第二。基于“视觉+AI”的核心框架及“感知+计算+连接”的核心能力，专注为智慧视觉、智慧出行、智能机器人、智能家居、智能办公、智能工业等端边侧设备提供AI SoC解决方案。

德韬资本是金牌家居及建潘集团的产业投资平台，围绕“泛家居产业互联网生态平台”布局战略投资，聚焦泛家居产业链、人工智能、机器人、智能家居、工业互联网等领域，致力深耕产业提升价值，加强产业科技孵化、赋能服务产业链、培育产业细分龙头、建设泛家居产业生态、打造泛家居产业互联网。目前管理6只基金，以“资本+产业+科技+平台”模式驱动产业发展。

石溪资本由集成电路存储龙头企业与投资团队发起设立，长期聚焦于硬科技等前沿领域的投资，在半导体、人工智能等领域有着广泛布局，通过产业资源对接、技术赋能等方式助力被投企业成长。石溪资本管理多达十余支基金，目前累计投资项目近60个，其中多家企业已成功上市。

李飞飞曾在演讲中引用哲学家路德维希·维特根斯坦的名言“我的语言的局限性就是我的世界的局限性”，并指出：“至少对于人工智能来说，世界远不止是文字”。可以预见，通过本轮融资获得更多产业方支持、与更多实际生产场景直接关联的拓元智慧将进一步验证VWA的适用性，而VWA也将在不断磨合中优化，最终推动那个宏伟目标——世界模型——真正实现。