当前位置:首页 > 科技资讯 > 正文

2025智源具身智能圆桌论坛:百亿投资策略与数据瓶颈突破

文|富充

编辑|苏建勋

在11月20日举行的2025智源具身Open Day圆桌论坛上,主持人提出了一个开放性问题:“如果给予你的企业100亿元资金用于推动具身智能发展,你将如何规划这笔投资?”

参与讨论的嘉宾来自国内具身智能领域的八家顶尖企业与机构:

智源研究院院长王仲远

智元机器人合伙人、首席科学家罗剑岚

北京大学助理教授、银河通用创始人王鹤

清华大学交叉信息学院助理教授、星海图联合创始人赵行

加速进化创始人兼CEO程昊

自变量创始人兼CEO王潜

招商局集团AI首席科学家张家兴

中国科学院大学教授赵冬斌

加速进化创始人兼CEO程昊笑着回应:“我觉得100亿元可能不够。”观众席传来默契的笑声,“如果只有100亿,我会联合更多伙伴共同推进行业。比如,将资金投入智源研究院。”

智元机器人合伙人罗剑岚强调数据瓶颈的解决:“我会构建全球最大的自我进化、自我闭环的数据飞轮。100亿元或许很多,但尚未有人或机构率先投入这笔资金做这件事。”

除了投资规划,嘉宾们还深入探讨了世界模型等热点话题,并对当前主流的VLA范式提出了反思与改进思路。

为增强观点碰撞,论坛设置了“举牌表态”环节:嘉宾通过举起1、2、3号牌表达同意、中立或不同意。

举牌结果显示,即便在国内顶尖从业者中,非共识依然存在,尤其在“数据稀缺”问题的解法上分歧明显。

星海图联合创始人赵行和招商局集团AI首席科学家张家兴主张真实物理世界数据的重要性;银河通用创始人王鹤则强调,在真实数据难以采集时,合成数据将发挥关键作用。

自变量创始人兼CEO王潜认为可以融合使用数据,但需根据任务选择合适来源。

如何选取和组合数据以实现从量变到质变的飞跃?不同回答折射出每位创业者的“第一性原理”与战略重心。

以下是《智能涌现》从论坛中选取的精彩内容,对话经整理:

2025智源具身智能圆桌论坛:百亿投资策略与数据瓶颈突破 具身智能  世界模型 数据飞轮 人工智能投资 第1张

△2025智源具身Open Day“具身模型会客厅”圆桌论坛,图源:智源研究院

主持人:大家认为,世界模型会是具身智能的关键技术吗?

王鹤(同意):这取决于世界模型的定义。经Sora等视频生成模型影响后,其原在强化学习中的定义已变得模糊。

当前主流思路是让机器人通过人类行为视频学习,但根本问题在于机器人与人类身体结构差异巨大——无论是轮式底盘还是双臂,灵巧度和活动空间都不同。

因此,即使模型能生成逼真人类动作,这类数据对机器人帮助有限。

然而,未来预测能力对具身智能不可或缺。机器人必须像人一样,根据未来目标推理当前动作,进行规划。

所以结论是:世界模型代表的预测能力是核心,但训练数据必须来自机器人自身。只有通过大量机器人数据,才能训练出有效的世界模型。

王仲远(同意):世界模型对具身智能肯定有作用,但不一定是必须基座。

我们所理解的世界模型,不仅是视频生成。视频生成时产生下一帧画面,但人类需要的是世界模型能基于前续时空状态预测下一时空状态。

例如,我回答时需基于主持人提问和王鹤老师的回答,组织答案并决策拿起话筒。

主持人:在通用大模型领域,Transformer统一架构催生了ChatGPT爆发,但具身智能模型尚未进入“一个大模型打天下”局面,现有分层模型、端到端VLA、世界模型等。

大家认为,具身智能模型最终会收敛到由某个统一架构主导吗?

张家兴(中立):我认为具身智能真要走向明天,模型层面不能沿过去三年LLM到VLM的路走下去。具身智能需要完全属于自己的架构。

就像人类智能,先有动作,再有视觉,最后有语言。VLA结构在视觉和动作间夹了语言,这不符合人类操作本质。

例如开车时,我们可以一边聊天、听东西,一边看路。(语言未参与开车本身)这说明视觉与动作是打通的,无需语言参与。

现在一些硅谷头部团队正做新的多模态大模型架构。在此架构下,原来Language First可能变为Vision First或Vision Action First,这是值得期待的突破。

赵行(同意):我非常同意我们需要平行于大语言模型的基础模型。

这基础模型更可能是Large Action Model,依赖视觉作为最通用感知传感器信息。之后再加入语言。

这和生物进化规律相似。世界先有能运动的动物,然后有视觉,最后出现高智慧人类。

然后我再多说一句,我觉得具身模型和大语言模型需有特别不同之处:我希望它是闭环模型。

大语言模型更多是开环模型:一问一答,给出答案后结束。

但具身智能不同,它不是经过思考后做一个动作,而是在做动作后立刻得到世界反馈,调整动作再做下一个。

罗剑岚(同意):我觉得具身智能最终会被一个一体系统解决,包括VLA、世界模型、强化学习,而非单一模型。

解释一下,我同意张家兴说VLA可能不是最终范式,但未来仍有Vision、Language、Action。VLA大趋势对,但不一定长成现在样子,所以我仍用VLA词。

同时,它也需要世界模型,能反思、预测,在潜在空间上想象。当然系统还需强化学习。

这些要素组合后,配合真实世界数据飞轮,具身智能可不断自我进化,持续学习。

王仲远(同意):智源研究院相信,从终极状态看,需相对统一架构模型解决具身智能问题。这也是我们布局多模态世界模型的重要原因。

当然,所需数据量极大,可能非三五年就能完全出现。

更好的具身大模型,可能要等大量机器人在真实场景解决问题、累积“具身智能互联网”级别数据后,才会出现。

王鹤(同意):从架构角度,今天Transformer作为跨模态Attention机制很通用,吞吐文、视频、声音模态都可。

但今天具身问题是,人有眼、耳、口、鼻、舌等多“觉”,从Attention角度,这些“觉”Token化后能放Transformer,但输出上不对。

所以如果我们慢慢解决这些问题,架构上未来可统一范式。

但我觉得当下更长效挑战是数据。我非常认同仲远博士所说,今天无论是视频生成模型还是对话模型,本质都是天量互联网大数据。

那么当下要研究Action First模型,问题在于地球人形机器人居民太少。这数量不足以撑起探索Action First架构和模型。

所以我的看法是,短期内要靠合成数据摸索方向,比真实数据更快。先让具身智能能力点增长,然后人口增长,才能孕育出真正强大模型。

程昊(同意):我们做运控多,更多从机器人运控视角思考具身智能模型。

我们希望有一个具身模型,能基于需求、环境,时刻输出未来100帧动作。脑补一下,这可能是机器人运动动画。

这模型一旦跑通,整个具身智能就会非常好落地。

为什么我们关注世界模型?因为核心点是世界模型会预测接下来发生什么,包括机器人本体主动想做什么,以及事件会发生什么。

例如做饭非常难,但可先用分层方法让机器人落地:先拿快递、箱子等简单事情。

不过这很有挑战,实现较远。所以我们中间可能先用分层方法,先做Agent落地。

就像王鹤老师所说,只要落地,机器人公民一定增多。因为落地创造价值,大家就有动力、有钱、有意愿造更多机器人公民,采集大量数据。

这些数据回来,会反哺整个具身智能大模型开发。

王潜(同意):我觉得问题中Transformer说法稍微有点误导。今天即使语言模型里,也不一定都用Transformer架构。

当然我理解问题是在讨论会不会有类似GPT的完整基础模型。从这个角度,我觉得还是有。

我们能从语言模型学到两件重要事。

第一是数据重要,但不是简单“越多越好”。在语言模型时代,单纯堆数据规模未必带来最好效果,高质量、高效率数据才是决定性因素。

所以虽然我们也做合成数据,但现在仍以物理世界真实数据为主,因为在具身场景,数据质量比数据总量更能拉开量级差距。

第二是要做Foundation Model(基础模型)。我认为必须有一套物理世界基础模型,平行或独立于虚拟世界。

原因在于,虚拟和物理世界特性差异太大。物理世界中摩擦、接触、碰撞等精细物理过程,很难用语言或传统合成数据准确描绘。所以最终我们需要一个直接在物理世界学习的基础模型,能描绘所有这些细致复杂物理过程。

它应既能控制机器人,也是世界模型。所以,在我们实践里,世界模型、VLA这些概念不互斥:同一模型可输出动作、视频等,我们把这整体看作“物理世界基础模型”。

至于为什么要做通用模型,原因是通用模型学到跨任务共性结构,即“常识”或“本质规律”。在具身,这可能是牛顿定律、物体属性,在语言里是逻辑和常识。

我反而认为,最终不是我们要继承现在多模态模型作基座;而是5至10年后,来自具身的多模态模型可能成为主导。也就是说,用物理世界数据做出的多模态模型,可能反吞今天以虚拟世界数据为主的多模态模型。

这符合人类认知:我们一生接触多模态数据远少于互联网规模,却能形成强世界理解。关键原因是具身智能可在动作中完成交互感知和主动感知,更好从时间和因果维度抓住物理世界规律。

2025智源具身智能圆桌论坛:百亿投资策略与数据瓶颈突破 具身智能  世界模型 数据飞轮 人工智能投资 第2张

△现场嘉宾举牌情况展示了对于具身智能问题的非共识,图源:智源研究院

主持人:刚才几位嘉宾不约而同强调数据重要性,现在能否用一两句话介绍你们采用什么策略面对数据瓶颈?

张家兴:我们的数据理念是,第一,相信真实物理世界采集的数据,这重要性王潜说过多次。

第二,在整个数字金字塔中,我们更偏重以人自身作为本体采集的数据。这是成本最低、量最能上去的数据,主要用于预训练。

赵行:我们也以真实数据为基础。有三个切入点。

第一是真实性、质量。所以我们从真实机器人数据采集作为起点。

第二是多样性。比起数据采集厂,我们更多去真实场景做数据采集。

第三是数量。扩大采集规模,降低采集成本。

罗剑岚:我们也坚持真实数据,并重视质量。

我们有两个突出点:一是如赵行所说,在真实场景采集,不仅限数据采集厂。

另一点是,未来整个数据飞轮构建通过机器人自主产生数据。不仅是遥操作,而是大量机器人部署真实场景,机器人与环境交互,产生广泛、多元化数据。

王仲远:我们坚持从视频数据中做基座模型学习。

因为视频数据可海量获得,同时模拟真实世界。然后通过真机采集数据微调,再通过强化学习做反馈,提升模型能力。

这套逻辑类似小朋友刷手机认识世界:先通过视频学习,再通过真实交互提升技能。这也符合第一性原理。

王鹤:可能在座人中,我很强调仿真。

不是说真实世界能采的数据故意去仿真,而是我们发现底层控制都通过大量强化学习习得,真实世界做强化学习较困难。

例如今天所有人形足式行走、跳舞、复杂身体控制,都通过仿真器习得。

我们最近趋势来自与清华大学合作的灵巧手项目。至今所有做手内操作的灵巧手工作,都用仿真器习得,而非遥操作。

因为遥操控制灵巧手时,不知手指碰到没、扎到没、受多少力,很难操作。

所以我的看法是,模拟器不是否定真实世界,而是丰富物理交互从模拟器开始,它给我们很好Base Controller,让我们在真实世界把数据飞轮转起来。这是合成数据的使命。

程昊:我们现在实际用仿真数据多些,因为仿真数据较快。

但我们用仿真数据训练的目标,是让具身智能快速落地,落地后获得真实数据。

获得真实数据后能力提升,可能发现有些情况真实数据成本太高,后又开始用仿真数据,这可能是一个螺旋上升过程。

最后视频数据肯定最多,只不过现在视频数据训出效果不那么好。但这问题从历史看,肯定有解法。

所以终局解法我们觉得,很可能是融合数据,哪个阶段哪个数据好用就用哪个。

王潜:我们什么数据都用,但使用有侧重点。

就像我说的,不同数据分布差异大,例如我们用大量互联网数据,基本上能爬的数据都会爬。这主要用于预训练,学常识。

我们也做仿真,但不用它做接触、取物操作,可能只用于导航、规划。操作主要还以物理世界真实数据为主。

赵冬斌:我想自动驾驶也是具身重要例子。自动驾驶已落地,从经验看,车卖给C端用户,每个司机每天在路上开车,就把数据收回。

什么时候我们的机器人能卖或租到真实场景,边工作边收数据,数据量就会更快涨起来。

主持人:所以每位嘉宾能否用一句话解释,你们做决策时的第一性原理是什么?

张家兴:我比较相信去年图灵奖获得者说法:让机器自己去发现,让机器自己去探索。

赵行:我们在星海图刚创立时,就有一句话“In Scaling Law We Trust”。我们相信数据规模化能反向驱动模型进化和智能实现。

罗剑岚:我觉得我们要做难而正确的事情,风物长宜放眼量,很多事情短期看是负担,长期看会产生巨大价值。

王鹤:银河通用致力于让数据飞轮转起来。即使现在我们做的不是别人认为最炫酷的东西。

程昊:我们决策时关注是否能落地,某个方向是否对落地有帮助。

王潜:我们的判断标准是能否从较长周期上给客户和消费者创造真实价值。

赵冬斌:从研究上看,智能驾驶与具身智能会存在交互支持。

主持人:具身智能很吸睛,但也很花钱。一个快问快答问题,如果给你的企业100亿元推进具身智能发展,这笔钱你怎么花?

王潜:我觉得我首先把市场上能吸纳的好人才都吸纳过来。其次是算力和数据源。

程昊:首先我觉得100亿不太够(笑)。如果我只有100亿,会找更多朋友一起推进行业。比如投资到智源研究院,吸引全球研究人才心无旁骛做长期技术突破。

王鹤:我觉得100亿并不重要,重要的是怎么用事业和坚定进展吸引人才加入。我们不希望大家为钱每天睁开眼睛,而是为未来人与机器人共生世界。

我也认为,会用这十亿美金支持智源研究院。

罗剑岚:我觉得我会构建世界上最大的自我进化、自我闭环数据飞轮。100亿可以说很多,也可以说不算多,但第一个用100亿做这件事的人和机构还不存在。

赵行:我也想构建最大数据引擎,能把物理世界信息全都数字化下来。

张家兴:我希望设计属于我们的具身智能基础模型,然后做大规模预训练,真的能Scale Up上去。