当前位置：首页 > 科技资讯 > 正文

世界模型：AI的下一个突破口，拓元智慧引领物理空间智能新纪元

主机测评网
科技资讯
2026-02-25
523

在当前的人工智能角逐中，马克·扎克伯格及其领导的Meta平台无疑是姿态最为“激进”的参与者，堪称无出其右。

过去一年间，扎克伯格不惜重金、广纳贤才，力求构建全球顶尖的AI产品团队，频繁向拥有OpenAI、Anthropic等领军企业背景的人才抛出高达1亿美元的“转会费”。而其中最引人瞩目的一笔交易，当属为吸纳天才少年汪涛加入Meta执掌人工智能团队，扎克伯格直接斥资148亿美元整体收购了汪涛所创立的Scale AI，实现人才与公司的“一锅端”。

除此之外，扎克伯格还投资了SSI首席执行官、前Y Combinator合伙人丹尼尔·格罗斯的风险投资基金NFDG，并借此契机邀请NFDG的两位合伙人——丹尼尔·格罗斯与前GitHub首席执行官、知名科技播客“Hacker Medley”主持人纳特·弗里德曼加盟Meta，着手筹备Meta历史上首只产业基金（CVC）。

更关键的是，扎克伯格手中还握有一张王牌——Meta首席科学家杨立昆（Yann LeCun）。

杨立昆何许人也？他是计算机科学领域最高荣誉图灵奖得主，被誉为“AI教父”杰弗里·辛顿（Geoffrey Hinton）的得意门生，OpenAI前首席科学家伊利亚·苏茨克维（Ilya Sutskever）的同门师兄弟，更是神经网络反向传播学习算法的奠基人之一。可以说，若人工智能世界存在武林，杨立昆便是那位足以助Meta开宗立派的一代宗师。

然而，就在万事俱备、准备全力出击之际，这张王牌却爆出冷门：杨立昆宣布将于年底告别Meta，自立门户创立新公司。在他看来，“当前的大语言模型智商甚至不如猫，对物理世界的认知极为肤浅”，断言继续沿此路径将是“死路一条”——要实现真正的“通用人工智能（AGI）”，必须聚焦另一条技术路线：“世界模型”（world models）。

此消息一出，立即在全球科技界引发轩然大波，“世界模型”一跃成为热门词汇。各界人士纷纷热议：“究竟何为世界模型？”“世界模型与我们早已熟知的大语言模型，核心区别究竟何在？”

而在中国，同样有一批科学家在思索这一命题，并试图超越杨立昆的理论框架，提出具有自主特色的解决方案。据投中网独家获悉，近日，由鹏城实验室孵化、专注于“物理空间智能模型”研发的「拓元智慧」宣布完成数亿元Pre-A轮系列融资。本轮融资引入了东方精工、星宸科技、金牌家居关联基金德韬资本、石溪资本等多家战略及产业投资方，以及粤科创业等重量级国资投资平台，鹏城愿景、红鸟启航基金等科研机构基金。深蓝资本担任长期独家财务顾问。

据悉，所筹资金将重点投向物理空间智能模型的研发，提升模型的物理推理与跨场景迁移能力，构建具身智能生态，并加速相关产品的商业化进程。

何为“世界模型”？

为何大语言模型被视为死胡同？毕生钻研人类大脑的杨立昆指出，人类之所以能推理与规划，源于我们具备记忆、直觉和常识。而大语言模型的工作原理，本质上是预测下一个最可能的词元（token），图像/视频模型则预测下一个最可能的像素。

换言之，尽管这些模型已展现出惊人的推理能力，但其推理仍局限于“词元”“像素”层面，并未真正领悟三维世界的本质。举一个简单的现实场景：若给出“门宽80cm、桌子50cm、人肩宽55cm”的描述，当前的语言模型往往会机械地比较数字，得出“均小于门宽，故可同时通过”的结论，却完全忽略了两者并排时的总宽度、旋转引起的投影变化、姿态调整的约束以及物体不可穿透性等基本物理规律。这种错误不仅是知识缺失，更是对物理空间理解的根本性匮乏，凸显了当前AI无法成为可靠物理世界参与者的深层原因。

若从更务实的角度审视，大语言模型尽管在文本推理与知识处理上实现了突破，但在真实物理空间的理解、连续动作规划以及环境实时交互等方面仍存在根本性短板。这些短板不仅使AGI遥不可及，更直接制约了人工智能向具身智能等实际应用场景的延伸。

举例而言，由于模型无法精准把握空间结构与几何关系，机器人在执行简单任务时常常出现“对不准、抓不到、绕不开、走不直”等失败模式。在抓取任务中，机械臂可能因误判目标位置而多次空抓，或在移动中轻微碰撞桌角、墙面，暴露出对距离、可达性和避障条件的误判。在更复杂的场景下，模型甚至可能输出违背物理规律的行为规划，例如要求机械臂穿越障碍物、指令移动平台驶向无法通行的狭窄缝隙、或在倾斜平面上规划不稳定轨迹。此外，这类系统高度依赖训练场景，一旦光照变化、物体位置微移或视角改变，其性能便会大幅滑坡，同一指令在不同场景中的执行结果可能天差地别。

总之，要使人工智能真正具备人类级别的学习能力，就必须帮助大模型深刻理解我们身处的“物理世界”，这一技术路径即被命名为“世界模型”。杨立昆阐释道：“世界模型是你对世界运行规律的内在心理模型。借助它，你可以设想一系列可能采取的行动，并预测这些行动将对世界产生何种影响。”

持有相似见解的还有著名华人科学家李飞飞。她认为，人工智能未来十年的核心发展方向，应是具备空间智能的“世界模型”。而判断是否具备“空间智能”的标准在于：能否生成符合物理定律且空间一致的世界，能否处理从图像到动作的多模态输入，并预测这些世界的演变或与之交互。

世界模型：AI的下一个突破口，拓元智慧引领物理空间智能新纪元世界模型物理空间智能 VWA模型拓元智慧第1张

当然，当前之所以出现所谓的“路线之争”，并非其他大模型开发者不认同“世界模型”的价值，而是因为这条路径布满荆棘。

从数字世界跨越到真实世界，一项基本能力是准确判断在真实世界中执行的动作并与之交互。然而，当前主流的大模型架构——视觉—语言—动作模型（VLA）内部存在两大无法回避的缺陷，即便引入世界模型也难以彻底根除：

第一，VLA通常先将视觉输入压缩至语言token空间，此过程天然丢失了连续空间中至关重要的几何、拓扑与物理量信息，导致模型难以理解精确的位置关系，进而引发动作控制偏差，甚至输出违反物理约束的操作序列；

第二，VLA的泛化能力极其有限。真实世界的高度复杂性与多样性，加之具身智能对视角变化、环境布局、物体遮挡及动态条件的极度敏感，这些因素相互耦合，导致VLA模型往往在训练场景中表现优异，却难以迁移至新环境。一旦背景改变、光照不同或物体位置发生细微偏移，模型的感知—推理—动作链条便可能彻底崩溃。

可以说，这两大瓶颈直接导致AI在物理空间中的能力严重匮乏，也使当前的“AGI之路”看起来像一个无底洞。一个旁证是，就在2025年10月——即杨立昆宣布离职创业的前一个月——扎克伯格曾公开表示，为保持行业竞争力，Meta明年的支出将超过1000亿美元。此言一出，立即引发了市场对“大模型烧钱”的恐慌，严重考验了投资者的耐心。10月下旬，Meta股价暴跌12.6%，市值蒸发近2400亿美元。

“VWA”模型：为“世界模型”铺路？

那么，我们应如何真实、高效地开发“世界模型”呢？李飞飞、杨立昆在探索，中国的科学家们同样在求索，而拓元智慧便是其中的先行者之一。

世界模型：AI的下一个突破口，拓元智慧引领物理空间智能新纪元世界模型物理空间智能 VWA模型拓元智慧第2张

拓元智慧作为鹏城实验室智算生态的首批孵化企业，其核心创业团队汇聚了国内外顶尖AI学者，包括AI领域青年领军科学家王广润博士（华为“天才少年”计划最高级别入选者）、国家级青年人才王可泽博士（吴文俊人工智能科学奖得主）、中山大学-拓元联合实验室负责人梁小丹博士（阿里巴巴青橙奖得主）。

他们给出的答案是“VWA”，即Vision-World-Action模型，这是一种与VLA截然不同的全新架构。

拓元团队指出，当前大模型能力提升的关键瓶颈在于泛化性普遍不足。要突破这一瓶颈，需将整体能力解耦为“物理建模”与“空间建模”两大模块。通过这种拆分，模型可获得高度通用、跨环境稳定的物理建模能力；而真正影响泛化性的部分，仅局限于对具体场景的空间建模。这一机制与人类操控陌生环境中机器人的行为高度契合：人类并非天生具备“泛化性”，而是依靠在新环境中快速适应空间布局来完成任务。

VWA正是基于这一思路设计而成。与VLA必须将视觉信息压缩至语言token空间不同，VWA模型可直接在物理空间中进行推理与决策，在连续物理空间内执行多步推演（roll-out）、预测未来状态变化，从而在规划、安全评估与稳定控制方面迈出关键一步。

实现VWA架构的核心，是拓元自主研发的物理自回归模型（Physical Autoregressive Model, PAR）。PAR模型通过将视频帧与机器人动作共同编码为“物理token”，使模型能够以自回归方式逐步预测下一帧视频与动作，形成“预测—执行—再预测”的闭环。尤为关键的是，PAR模型无需动作预训练，即可有效学习物理世界的动态规律，在机器人操作基准ManiSkill的PushCube任务中达成100%的成功率，并在多项任务中媲美需动作预训练的强基线模型。这一成果有力推进了从大规模视频预训练模型向真实世界机器人操控能力迁移的技术路径，为构建具备通用物理常识的具身智能奠定了坚实基础。

此外，在底层推理机制上，拓元提出了全新的Tweedie框架，显著提升了动作控制的精准度；同时引入高效的Eon计算机制，大幅增强了模型的运行效率与长序列建模能力。二者结合，为构建更可靠、更智能、更具泛化性的物理空间智能奠定了坚实基础。

在数据层面，拓元智慧引入了多源高质量的物理数据，主要包括：（1）具备空间信息的真实人类抓取及自然场景数据：基于真实业务场景采集的数十亿级双目与多目视觉数据，覆盖多种真实环境和多样化任务场景，具备高度一致的空间结构信息与自然连续的人类动作轨迹。相较于现有以仿真或摆拍为主的数据，这类真实任务数据在规模、多样性与真实性上具有显著优势，并通过丰富的3D空间线索，支持对海量物体进行精细的空间理解与语义解析。（2）训练场仿真数据：依托虚实孪生的具身智能训练场，通过高保真3D物理环境重建与逼真的物体资产构建，生成大规模物理仿真数据与仿真遥操作数据，为模型提供可控、可扩展、可重复的训练条件。

依托全新的模型架构和海量真实预训练数据，模型开发效率大幅提升，适配所需数据极少（甚至只需一条示例），所涉及的参数规模也极小（例如在数百亿参数的模型中，仅需更新约4000个参数）。更重要的是，模型可在新环境中实现在线快速适配。以家庭机器人为例：一个家务机器人无需经历漫长的学习适应过程，只需对新空间布局进行快速建模，即可立即投入使用。

在这样的前景下，拓元智慧自成立之初便备受资本市场关注。自2022年创立至今，拓元智慧已相继完成多轮市场化融资，投资方包括卓源资本、源数资本、红鸟启航基金、银杏谷资本等市场化机构，以及粤科金融集团、鹏城愿景基金等国资背景平台。

本轮投资方均在其专注领域拥有深厚的资源背景与战略布局，进一步印证了资本市场对拓元智慧技术实力与发展前景的认可。例如，投资方之一东方精工作为聚焦高端智能装备制造的龙头企业，目前正以“构建具身智能机器人全产业链生态、赋能传统产业智能化升级”为核心，前瞻性布局“人工智能+具身智能机器人”赛道，已形成覆盖机器人本体制造、多模态大模型智能大脑研发、应用场景拓展的全产业链布局。

星宸科技作为全球领先的视觉AI SoC芯片设计企业，视觉AI SoC全球市占率第一（出货量第一），机器人视觉AI SoC市占率位居全球第二。公司依托“视觉+AI”的核心框架及“感知+计算+连接”的核心能力，专注于为智慧视觉、智慧出行、智能机器人、智能家居、智能办公、智能工业等端边侧设备提供AI SoC解决方案。

德韬资本作为金牌家居及建潘集团的产业投资平台，围绕“泛家居产业互联网生态平台”进行战略投资，聚焦泛家居产业链、人工智能、机器人、智能家居、工业互联网等领域，致力于深耕产业提升价值，加强产业科技孵化，赋能服务产业链，培育产业细分龙头，建设泛家居产业生态，打造泛家居产业互联网。目前管理6只基金，以“资本+产业+科技+平台”模式驱动产业发展。

石溪资本由集成电路存储龙头企业与投资团队共同发起设立，长期聚焦硬科技等前沿领域投资，在半导体、人工智能等领域广泛布局，通过产业资源对接、技术赋能等方式助力被投企业成长。石溪资本管理十余支基金，累计投资项目近60个，其中多家企业已成功上市。

李飞飞曾在演讲中引用哲学家路德维希·维特根斯坦的名言“我的语言的局限性就是我的世界的局限性”，并指出：“至少对于人工智能而言，世界远不止是文字。”可以预见，通过本轮融资获得更多产业方支持、与更多实际生产场景深度融合的拓元智慧，将能进一步验证VWA模型的适用性，而VWA也将在不断磨合中持续优化，最终推动那个遥远的目标——世界模型——真正变为现实。