当前位置:首页 > 科技资讯 > 正文

商汤王晓刚详解世界模型:从VLA到世界模型的升级之路

文|富充

编辑|苏建勋

就在四天前,“大晓机器人”官方小红书账号发布了一段引人注目的视频,其标题为:“晓刚老师养了十只狗”。

视频画面里,身为大晓机器人董事长兼商汤科技联合创始人的王晓刚,伫立在十只形态各异的机器狗队列之后。只见他并未手持任何遥控装置,只是轻轻挥动手臂,并发出指令:“任务已下发,出发”。

机器狗们闻声而动:有的奔赴路面搜寻违停车辆,完成拍照并回传数据;有的则前往城市禁飞区域排查违规无人机信号,并在锁定操作者后发出语音警告。

“过去的一条狗,可能需要两到三位工作人员‘伺候’。而在未来,一个人只需在远端控制室,就能轻松管理一支机器狗队伍。” 王晓刚展望道。

在12月18日“大晓机器人”的发布会上,王晓刚进一步阐述了大晓机器狗的落地场景:它们可以作为机器狗“城管”执行街面巡查任务,目前团队正与徐汇公安共同探讨这一城市治理的新方案。

商汤王晓刚详解世界模型:从VLA到世界模型的升级之路 世界模型 具身智能 机器狗 商汤科技 第1张

△出发执行任务的四足狗“汪汪队”,它们来自不同本体品牌,但背上统一搭载了大晓具身超级大脑模组A1,图源:企业提供

王晓刚将“让狗突然能干活”的突破,归功于此次发布的两项创新:

一是具身超级大脑模组A1,它相当于一个聪明的AI大脑,可搭载于宇树、智元、云深处等不同品牌的本体之上。装入A1模组后,原本仅具备运动能力的机器狗,也拥有了“空间智能”和“自主决策”能力。

而驱动这个大脑的核心,是本次发布的另一项成果——“开悟”世界模型3.0。简而言之,世界模型在AI模型中构建了物理世界的运行规律。有了它,就如同将与世界交互的能力注入了机器人大脑。

如此一来,机器人不仅能更快学会物理世界中的不同任务,还能适应从未去过的新环境。好比学会了“开门”这一动作后,无论是家中的入户门,还是初次光顾的餐厅大门,它都能顺利打开。

除此之外,世界模型还能应用于不同机器人身上。无论是四足狗还是双足人形等多样构型的本体,都可以通过世界模型,具备理解世界、并对后续状态进行预测的能力。

不过,世界模型并非凭空产生的概念。它的兴起,直指过去一年具身智能主流技术VLA模型所遭遇的本质瓶颈:

VLA更像一个“超级模仿者”,依靠海量“画面—指令—动作”配对数据,让机器人学习特定技能;但它很难真正理解物理规律,因此一旦环境或对象改变,成功率便会下降。

正因如此,VLA需要堆砌大量数据,让模型“看遍”各种案例,才能完成越来越多的任务。但当前的数据量却难以为继:自动驾驶可轻松积累数百万小时行车数据,而具身智能仍需工作人员遥控机器人采集数据,至今仍困于10万小时的量级。

世界模型则让机器人的大脑从“死记硬背例题”转向“掌握通用公式”,从而大幅降低对特定场景、海量真机数据的依赖。

发布会现场,《智能涌现》试用了“开悟”世界模型3.0:只需输入一段文字描述,然后选择相机机位、不同机器人本体等信息,世界模型便会生成以该机器人为第一视角的动作画面。

这些生成的画面与动作决策,能够教会机器人大脑与物理世界交互的方法,并在背后指挥机器人完成每一次行动。

商汤王晓刚详解世界模型:从VLA到世界模型的升级之路 世界模型 具身智能 机器狗 商汤科技 第2张

△现场试用中,“开悟”世界模型3.0可根据使用者在右侧输入的空间、动作文字描述,生成相应画面,图源:作者拍摄

正因如此,世界模型成为近期大热的技术趋势。包括特斯拉在内,近期的技术分享中,越来越多智能驾驶和具身智能公司展示了世界模型的布局进展。

但王晓刚也强调,世界模型若想真正有效,必须有下游验证的闭环。

他回忆道,2024年11月,自己就曾主导发布过智能驾驶世界模型,但彼时行业对这项技术的态度是“不太信”。

原因在于,包括英伟达Cosmos世界模型在内,当时不少公司把世界模型当作“数据生成器”。虽然能在实验室里生成一堆看似成立的场景画面,但缺少下游真实落地的验证,没人能回答“这些数据到底好不好用”,因此很难建立信任。

王晓刚的解法,是将推出的智能驾驶世界模型融入自身的止驾算法业务中。例如在与上汽智己的合作中,这项能力被用于攻克“过环岛”、“大车加塞”等高风险博弈场景。

过去采集这类数据既危险又昂贵,甚至需要协调“演员车”上路复现。商汤则可以先在世界模型里规模化生成大量场景画面与解决策略,再用上汽智己的实车对世界模型的决策进行检验、校准,让模型能力在真实反馈中越练越准。

同样的方法论被搬到具身智能上,大晓选择用“机器狗上街”作为商业化第一站:四足狗硬件更成熟、进入场景的商业化路径更短,能在任务执行中验证世界模型的能力,并在真实场景里持续迭代。

王晓刚也给出了大晓的商业化路线图:先用四足在道路世界跑起来,探索四足尚未充分开拓的增量市场;2—3年后,通过轮式双臂机器人将业务延展到无人物流仓;再往后,则考虑双足人形与更复杂的家庭场景。

在这个过程中,大晓并非从零开始。商汤过去11年的积累,为大晓机器人的商业落地带来了可复用的资源。

比如商汤旗下“方舟”视觉平台已在城市中落地大量事件检测应用,这让大晓有可能快速切入安防、巡检等场景;此外,商汤在海外市场的布局,也为大晓机器人未来销往其他国家提供了现成的通道。

近期,《智能涌现》对王晓刚进行了专访,聊了聊他对世界模型的判断,以及大晓的技术细节。以下对话经作者整理。

商汤王晓刚详解世界模型:从VLA到世界模型的升级之路 世界模型 具身智能 机器狗 商汤科技 第3张

△大晓机器人董事长王晓刚,图片:企业提供

赛道升级:VLA到世界模型

智能涌现:从VLA到世界模型的“升级”,你认为这是同一个技术方向的逐渐演变,还是一个很大的转折?

王晓刚:这条线是一脉相承的。我把世界模型、端到端、强化学习视为同一条技术链路在不同阶段的延伸。

从自动驾驶到具身智能,核心都是让模型理解并预测真实世界的演化,再将这种能力用于决策与控制。

行业的变化在于,大家开始把“模型能否在物理世界里闭环生效”作为第一性问题,而不仅仅是做几个演示动作。

你也能看到像特斯拉近期披露的一些细节里,世界模型被用作仿真器,这就是技术发展一路走到今天的结果。

智能涌现:你说去年11月就主导发布过世界模型,但当时大家“不相信”世界模型。后来商汤用上汽智己的智驾业务做了验证,具体验证了什么?

王晓刚:上汽智己会挑选高风险、高复杂度场景来验证我们世界模型的能力,比如过环岛、大车加塞这类博弈问题。

过去在这些危险场景要采集真实数据,既危险成本又高,甚至需要找演员来制造场景。但用了世界模型后,能生成更多这类场景的数据与策略,帮助智能驾驶提升相应任务的处理能力。

智能涌现:世界模型解决了哪些VLA的短板问题?

王晓刚:VLA更偏向短序动作、技能的学习,通常不承载复杂的物理规律注入与长链推理。由于缺少对物理世界的结构化理解,也容易“会做一些看似正确但无效的动作”。

世界模型的目标更大,它学会了环境与交互的规律,支持预测、推理、规划,并能在不同任务、场景中形成泛化。

比如VLA学会打开一扇白色的冰箱门后,换成黑色的冰箱它可能就不认识了。世界模型可以理解冰箱门是如何被打开的,那么换了一个房间、换了一台外观迥异的冰箱,它依然知道其中的物理规律。

我们还希望把世界模型尽可能放在端侧,这样也能提升机器人从思考到执行的同步效率。

智能涌现:你为什么强调“世界模型要与强化学习结合”?

王晓刚:强化学习擅长在可反复试错的环境里寻找策略,但现实世界试错成本太高,所以可以把一部分试错与推演搬到世界模型里进行,再将策略迁移回真机。

智能涌现:Sora这种生成式世界模型,与大晓推出的具身世界模型,之间的区别是什么?

王晓刚:Sora是一个出色的视频生成器,但它本质上是一个“黑盒”。它生成的视频可能看起来很真实、酷炫,但模型内部并不理解视频里物体之间的物理关系和因果规律。

Sora无法把场景里的物体拆成可交互、可替换的对象去编辑。比如画面里瓶子、桌子和周围环境粘在一起,都是一整块“背景”,你不能把瓶子单独拿出来、换位置,再让它和其他动态对象发生真实交互。

具身世界模型要解决的是另一类问题:它不是为了生成一段好看的视频,而是为了让机器人能在真实世界里推理、规划、做决策。

比如桌子上有一堆积木,你让世界模型控制机器人把它们以最快速度搭成“ACE”三个字母的形状。这个任务里,机器人得先理解每块积木的位置、形状、可移动性,推演出一个最优的移动序列:先动哪块、后动哪块,用什么抓取方式,才能用最少步骤完成。

智能涌现:所以大晓推出的世界模型,有哪些能力可以帮助具身智能更好地执行任务?

王晓刚:因此我们做的具身世界模型需要包含三块多模块能力:

第一是多模态理解,去理解世界本身,不仅是视频的内容,还包括相机位姿、3D轨迹、力学属性等更深层的东西;

第二是多模态生成,要能生成可训练的数据和场景,比如在一个生成的世界画面里更换背景、本体、机械臂;

第三是多模态预测,比如我下达指令是“拿起手机”,但它要能预测用左手和右手会产生不一样的动作轨迹。

而且,我们的平台允许用户选择不同机器人本体。因为你最终是要让机器人“去干活”的——你在生成仿真数据、构建训练场景时,要对应到具体本体,才能把世界模型真正接入下游训练闭环里。

智能涌现:你如何判断一个世界模型好不好?

王晓刚:行业有一些Benchmark,但我更看重影响力和应用解决问题的能力。

单看榜单不够,要看能否与机器人系统结合、在真实问题中被大量使用、持续迭代。我们也会把世界模型开源,让大家用起来。用得多、能解决问题,本身就是一种更硬的评价体系。

商汤王晓刚详解世界模型:从VLA到世界模型的升级之路 世界模型 具身智能 机器狗 商汤科技 第4张

△搭载大晓模组的机器狗可以识别路口红灯,实现自主导航、避障,图片:企业提供

世界模型的数据方法论

智能涌现:“开悟”世界模型3.0包含一个怎样的架构?训练数据从哪里来?

王晓刚:我们把架构拆成三个层次,不同的层次采集不同的数据

1)最底层是对这个世界的描述。比如为什么苹果熟了会掉下来,这里面它的物理规律是什么。这些关于世界物理规律的描述都是文本的。

2)第二个层次是人类行为,即人如何与这个物理世界交互。要让模型理解机器人跟物理世界交互时,位姿是怎么变的;施加的力是什么样的;触觉是怎样的等等。

这是以人为主体进行的数据采集,比如让人头戴摄像机,拍摄第一视角的视频;或者人戴上数采手套去捕捉手部动作;周围也有摄像头进行第三视角的拍摄。从不同的视角把人与世界交互的动作记录下来。

3)第三个层次是真机动作。具体而言,有些本体是十几个自由度,也有几十个自由度的本体,它们所看到的世界是不一样的。因此,也要再配合采集不同本体的真机数据。

智能涌现:为什么你们强调主要的数据要“以人为中心”采集,而不是“以机器为中心”?

王晓刚:以机器人为中心会带来一个问题:不同构型本体的数据难以跨本体复用,而且人操作机器人做动作、采数据效率非常低。

但人自己做动作的数据更容易规模化采集。所以我们先采集人的数据,训练出一个有物理常识的大脑,再迁移到不同机器人上。

智能涌现:有了世界模型以后,对真机数据的需求似乎可以减少?到底还需要多少真机数据?

王晓刚:截至目前,自动驾驶里真实数据精挑细选能做到数百万小时,而机器人真机采集数据往往只有1万到10万小时。

但如果先用人体和环境数据做大底盘,再用少量真机数据校准,真机部分可以从万小时级别进一步往下压。很多情况下不必额外大规模采集,只要把现有真机数据放进去即可。

智能涌现:物理规律那么多,世界模型中如何全部覆盖这么多的知识?

王晓刚:物理规律不可能无条件穷尽,所以世界模型一定有场景边界。比如做自动驾驶不关心家庭内的场景,做家庭场景的不关心海里苹果怎么漂。

大晓的做法是先从身边道路开始做起,中期做无人物流仓,未来再扩展到家庭,逐步扩大边界。

商汤王晓刚详解世界模型:从VLA到世界模型的升级之路 世界模型 具身智能 机器狗 商汤科技 第5张

△大晓机器狗在识别违停车辆,图片:企业提供

从街上的四足狗先跑通商业化

智能涌现:大晓这次发布的“大脑模组”是什么?包含什么?

王晓刚:模组可以理解为一个盒子:集成传感器、通信、计算等能力,用来把世界模型能力装载到本体上。

模组也包括全景相机,这可以提升视野,检测很多周围世界里的事件。

智能涌现:为什么先选机器狗的形态承载这个模组,而不是直接研发人形?

王晓刚:机器狗的技术更成熟,稳定性更高,我们希望用它先进入真实场景跑起来。

智能涌现:大晓要做像苹果那样的软硬一体,还是更开放的生态?

王晓刚:我们会做软硬一体。但与苹果不同之处在于,苹果的软件和硬件都只给自己用,我们会选择性自研关键部分,同时也需要生态合作伙伴。

具体而言,自己能做好的就自己做,借助生态更快的部分就去合作。关键是最终交付的是可用的产品方案,把成本降下来,把稳定性和安全性提上去。

智能涌现:大晓未来的商业计划,是更偏向把世界模型卖给本体厂商,还是直接面对场景客户?

王晓刚:我们会希望直接进入场景。

一来,场景客户这边我们更熟悉,商汤在城市、文旅等场景做了多年,知道客户需求是什么样的。二来,很多本体厂商成立时间短,也不一定愿意投入资源进场景。

所以我们更有条件直接打场景,并利用既有资源把进入场景的成本摊薄。

商汤王晓刚详解世界模型:从VLA到世界模型的升级之路 世界模型 具身智能 机器狗 商汤科技 第6张

△通过轮式双臂机器人将业务延展到无人物流仓是大晓的未来商业规划,目前正与合作本体厂商进行该场景训练,图片:企业提供

智能涌现:大晓和具身本体公司之间,既可以合作又可能存在竞争,怎么协调?

王晓刚:当下最大的问题还不是竞争,因为场景还没完全打开。

我们在策略上以场景为导向,优先寻找增量:不去抢别人已经稳定跑通的存量,比如电力巡检等。找到场景后,本体厂商反而愿意配合,因为他们过去不敢投入产能,本质上也是不确定场景与订单量。

智能涌现:大晓主要To B还是To C?

王晓刚:先做to B。

To C市场的量确实巨大,但正因如此,它对产品的可靠性、安全性和耐久性有着极其苛刻的要求。

这不是说技术原理上做不到,而是整个产业链在没有明确的大规模应用场景驱动前,不愿意也没有动力去投入巨大的成本来攻克这些工程和质量难关。

所以,我们的策略是先通过To B场景,来驱动整个产业链的成熟。在智慧城市、园区管理、文旅导览等这些对自主移动能力有迫切需求的领域,机器狗作为一个可管理的“数字员工”,它的价值是明确的,并且能够容忍一个逐步迭代和优化的过程。

智能涌现:会考虑做出海吗?

王晓刚:会。更像跟着体系走,我们在东南亚、中东等有海外资源和团队,可以顺势推进。