当前位置：首页 > 科技资讯 > 正文

2025智源具身智能圆桌论坛：百亿投资策略与数据瓶颈突破

主机测评网
科技资讯
2026-01-26
286

文｜富充

编辑｜苏建勋

在11月20日举行的2025智源具身Open Day圆桌论坛上，主持人提出了一个开放性问题：“如果给予你的企业100亿元资金用于推动具身智能发展，你将如何规划这笔投资？”

参与讨论的嘉宾来自国内具身智能领域的八家顶尖企业与机构：

智源研究院院长王仲远

智元机器人合伙人、首席科学家罗剑岚

北京大学助理教授、银河通用创始人王鹤

清华大学交叉信息学院助理教授、星海图联合创始人赵行

加速进化创始人兼CEO程昊

自变量创始人兼CEO王潜

招商局集团AI首席科学家张家兴

中国科学院大学教授赵冬斌

加速进化创始人兼CEO程昊笑着回应：“我觉得100亿元可能不够。”观众席传来默契的笑声，“如果只有100亿，我会联合更多伙伴共同推进行业。比如，将资金投入智源研究院。”

智元机器人合伙人罗剑岚强调数据瓶颈的解决：“我会构建全球最大的自我进化、自我闭环的数据飞轮。100亿元或许很多，但尚未有人或机构率先投入这笔资金做这件事。”

除了投资规划，嘉宾们还深入探讨了世界模型等热点话题，并对当前主流的VLA范式提出了反思与改进思路。

为增强观点碰撞，论坛设置了“举牌表态”环节：嘉宾通过举起1、2、3号牌表达同意、中立或不同意。

举牌结果显示，即便在国内顶尖从业者中，非共识依然存在，尤其在“数据稀缺”问题的解法上分歧明显。

星海图联合创始人赵行和招商局集团AI首席科学家张家兴主张真实物理世界数据的重要性；银河通用创始人王鹤则强调，在真实数据难以采集时，合成数据将发挥关键作用。

自变量创始人兼CEO王潜认为可以融合使用数据，但需根据任务选择合适来源。

如何选取和组合数据以实现从量变到质变的飞跃？不同回答折射出每位创业者的“第一性原理”与战略重心。

以下是《智能涌现》从论坛中选取的精彩内容，对话经整理：

2025智源具身智能圆桌论坛：百亿投资策略与数据瓶颈突破具身智能世界模型数据飞轮人工智能投资第1张

△2025智源具身Open Day“具身模型会客厅”圆桌论坛，图源：智源研究院

主持人：大家认为，世界模型会是具身智能的关键技术吗？

王鹤（同意）：这取决于世界模型的定义。经Sora等视频生成模型影响后，其原在强化学习中的定义已变得模糊。

当前主流思路是让机器人通过人类行为视频学习，但根本问题在于机器人与人类身体结构差异巨大——无论是轮式底盘还是双臂，灵巧度和活动空间都不同。

因此，即使模型能生成逼真人类动作，这类数据对机器人帮助有限。

然而，未来预测能力对具身智能不可或缺。机器人必须像人一样，根据未来目标推理当前动作，进行规划。

所以结论是：世界模型代表的预测能力是核心，但训练数据必须来自机器人自身。只有通过大量机器人数据，才能训练出有效的世界模型。

王仲远（同意）：世界模型对具身智能肯定有作用，但不一定是必须基座。

我们所理解的世界模型，不仅是视频生成。视频生成时产生下一帧画面，但人类需要的是世界模型能基于前续时空状态预测下一时空状态。

例如，我回答时需基于主持人提问和王鹤老师的回答，组织答案并决策拿起话筒。

主持人：在通用大模型领域，Transformer统一架构催生了ChatGPT爆发，但具身智能模型尚未进入“一个大模型打天下”局面，现有分层模型、端到端VLA、世界模型等。

大家认为，具身智能模型最终会收敛到由某个统一架构主导吗？

张家兴（中立）：我认为具身智能真要走向明天，模型层面不能沿过去三年LLM到VLM的路走下去。具身智能需要完全属于自己的架构。

就像人类智能，先有动作，再有视觉，最后有语言。VLA结构在视觉和动作间夹了语言，这不符合人类操作本质。

例如开车时，我们可以一边聊天、听东西，一边看路。（语言未参与开车本身）这说明视觉与动作是打通的，无需语言参与。

现在一些硅谷头部团队正做新的多模态大模型架构。在此架构下，原来Language First可能变为Vision First或Vision Action First，这是值得期待的突破。

赵行（同意）：我非常同意我们需要平行于大语言模型的基础模型。

这基础模型更可能是Large Action Model，依赖视觉作为最通用感知传感器信息。之后再加入语言。

这和生物进化规律相似。世界先有能运动的动物，然后有视觉，最后出现高智慧人类。

然后我再多说一句，我觉得具身模型和大语言模型需有特别不同之处：我希望它是闭环模型。

大语言模型更多是开环模型：一问一答，给出答案后结束。

但具身智能不同，它不是经过思考后做一个动作，而是在做动作后立刻得到世界反馈，调整动作再做下一个。

罗剑岚（同意）：我觉得具身智能最终会被一个一体系统解决，包括VLA、世界模型、强化学习，而非单一模型。

解释一下，我同意张家兴说VLA可能不是最终范式，但未来仍有Vision、Language、Action。VLA大趋势对，但不一定长成现在样子，所以我仍用VLA词。

同时，它也需要世界模型，能反思、预测，在潜在空间上想象。当然系统还需强化学习。

这些要素组合后，配合真实世界数据飞轮，具身智能可不断自我进化，持续学习。

王仲远（同意）：智源研究院相信，从终极状态看，需相对统一架构模型解决具身智能问题。这也是我们布局多模态世界模型的重要原因。

当然，所需数据量极大，可能非三五年就能完全出现。

更好的具身大模型，可能要等大量机器人在真实场景解决问题、累积“具身智能互联网”级别数据后，才会出现。

王鹤（同意）：从架构角度，今天Transformer作为跨模态Attention机制很通用，吞吐文、视频、声音模态都可。

但今天具身问题是，人有眼、耳、口、鼻、舌等多“觉”，从Attention角度，这些“觉”Token化后能放Transformer，但输出上不对。

所以如果我们慢慢解决这些问题，架构上未来可统一范式。

但我觉得当下更长效挑战是数据。我非常认同仲远博士所说，今天无论是视频生成模型还是对话模型，本质都是天量互联网大数据。

那么当下要研究Action First模型，问题在于地球人形机器人居民太少。这数量不足以撑起探索Action First架构和模型。

所以我的看法是，短期内要靠合成数据摸索方向，比真实数据更快。先让具身智能能力点增长，然后人口增长，才能孕育出真正强大模型。

程昊（同意）：我们做运控多，更多从机器人运控视角思考具身智能模型。

我们希望有一个具身模型，能基于需求、环境，时刻输出未来100帧动作。脑补一下，这可能是机器人运动动画。

这模型一旦跑通，整个具身智能就会非常好落地。

为什么我们关注世界模型？因为核心点是世界模型会预测接下来发生什么，包括机器人本体主动想做什么，以及事件会发生什么。

例如做饭非常难，但可先用分层方法让机器人落地：先拿快递、箱子等简单事情。

不过这很有挑战，实现较远。所以我们中间可能先用分层方法，先做Agent落地。

就像王鹤老师所说，只要落地，机器人公民一定增多。因为落地创造价值，大家就有动力、有钱、有意愿造更多机器人公民，采集大量数据。

这些数据回来，会反哺整个具身智能大模型开发。

王潜（同意）：我觉得问题中Transformer说法稍微有点误导。今天即使语言模型里，也不一定都用Transformer架构。

当然我理解问题是在讨论会不会有类似GPT的完整基础模型。从这个角度，我觉得还是有。

我们能从语言模型学到两件重要事。

第一是数据重要，但不是简单“越多越好”。在语言模型时代，单纯堆数据规模未必带来最好效果，高质量、高效率数据才是决定性因素。

所以虽然我们也做合成数据，但现在仍以物理世界真实数据为主，因为在具身场景，数据质量比数据总量更能拉开量级差距。

第二是要做Foundation Model（基础模型）。我认为必须有一套物理世界基础模型，平行或独立于虚拟世界。

原因在于，虚拟和物理世界特性差异太大。物理世界中摩擦、接触、碰撞等精细物理过程，很难用语言或传统合成数据准确描绘。所以最终我们需要一个直接在物理世界学习的基础模型，能描绘所有这些细致复杂物理过程。

它应既能控制机器人，也是世界模型。所以，在我们实践里，世界模型、VLA这些概念不互斥：同一模型可输出动作、视频等，我们把这整体看作“物理世界基础模型”。

至于为什么要做通用模型，原因是通用模型学到跨任务共性结构，即“常识”或“本质规律”。在具身，这可能是牛顿定律、物体属性，在语言里是逻辑和常识。

我反而认为，最终不是我们要继承现在多模态模型作基座；而是5至10年后，来自具身的多模态模型可能成为主导。也就是说，用物理世界数据做出的多模态模型，可能反吞今天以虚拟世界数据为主的多模态模型。

这符合人类认知：我们一生接触多模态数据远少于互联网规模，却能形成强世界理解。关键原因是具身智能可在动作中完成交互感知和主动感知，更好从时间和因果维度抓住物理世界规律。

2025智源具身智能圆桌论坛：百亿投资策略与数据瓶颈突破具身智能世界模型数据飞轮人工智能投资第2张

△现场嘉宾举牌情况展示了对于具身智能问题的非共识，图源：智源研究院

主持人：刚才几位嘉宾不约而同强调数据重要性，现在能否用一两句话介绍你们采用什么策略面对数据瓶颈？

张家兴：我们的数据理念是，第一，相信真实物理世界采集的数据，这重要性王潜说过多次。

第二，在整个数字金字塔中，我们更偏重以人自身作为本体采集的数据。这是成本最低、量最能上去的数据，主要用于预训练。

赵行：我们也以真实数据为基础。有三个切入点。

第一是真实性、质量。所以我们从真实机器人数据采集作为起点。

第二是多样性。比起数据采集厂，我们更多去真实场景做数据采集。

第三是数量。扩大采集规模，降低采集成本。

罗剑岚：我们也坚持真实数据，并重视质量。

我们有两个突出点：一是如赵行所说，在真实场景采集，不仅限数据采集厂。

另一点是，未来整个数据飞轮构建通过机器人自主产生数据。不仅是遥操作，而是大量机器人部署真实场景，机器人与环境交互，产生广泛、多元化数据。

王仲远：我们坚持从视频数据中做基座模型学习。

因为视频数据可海量获得，同时模拟真实世界。然后通过真机采集数据微调，再通过强化学习做反馈，提升模型能力。

这套逻辑类似小朋友刷手机认识世界：先通过视频学习，再通过真实交互提升技能。这也符合第一性原理。

王鹤：可能在座人中，我很强调仿真。

不是说真实世界能采的数据故意去仿真，而是我们发现底层控制都通过大量强化学习习得，真实世界做强化学习较困难。

例如今天所有人形足式行走、跳舞、复杂身体控制，都通过仿真器习得。

我们最近趋势来自与清华大学合作的灵巧手项目。至今所有做手内操作的灵巧手工作，都用仿真器习得，而非遥操作。

因为遥操控制灵巧手时，不知手指碰到没、扎到没、受多少力，很难操作。

所以我的看法是，模拟器不是否定真实世界，而是丰富物理交互从模拟器开始，它给我们很好Base Controller，让我们在真实世界把数据飞轮转起来。这是合成数据的使命。

程昊：我们现在实际用仿真数据多些，因为仿真数据较快。

但我们用仿真数据训练的目标，是让具身智能快速落地，落地后获得真实数据。

获得真实数据后能力提升，可能发现有些情况真实数据成本太高，后又开始用仿真数据，这可能是一个螺旋上升过程。

最后视频数据肯定最多，只不过现在视频数据训出效果不那么好。但这问题从历史看，肯定有解法。

所以终局解法我们觉得，很可能是融合数据，哪个阶段哪个数据好用就用哪个。

王潜：我们什么数据都用，但使用有侧重点。

就像我说的，不同数据分布差异大，例如我们用大量互联网数据，基本上能爬的数据都会爬。这主要用于预训练，学常识。

我们也做仿真，但不用它做接触、取物操作，可能只用于导航、规划。操作主要还以物理世界真实数据为主。

赵冬斌：我想自动驾驶也是具身重要例子。自动驾驶已落地，从经验看，车卖给C端用户，每个司机每天在路上开车，就把数据收回。

什么时候我们的机器人能卖或租到真实场景，边工作边收数据，数据量就会更快涨起来。

主持人：所以每位嘉宾能否用一句话解释，你们做决策时的第一性原理是什么？

张家兴：我比较相信去年图灵奖获得者说法：让机器自己去发现，让机器自己去探索。

赵行：我们在星海图刚创立时，就有一句话“In Scaling Law We Trust”。我们相信数据规模化能反向驱动模型进化和智能实现。

罗剑岚：我觉得我们要做难而正确的事情，风物长宜放眼量，很多事情短期看是负担，长期看会产生巨大价值。

王鹤：银河通用致力于让数据飞轮转起来。即使现在我们做的不是别人认为最炫酷的东西。

程昊：我们决策时关注是否能落地，某个方向是否对落地有帮助。

王潜：我们的判断标准是能否从较长周期上给客户和消费者创造真实价值。

赵冬斌：从研究上看，智能驾驶与具身智能会存在交互支持。

主持人：具身智能很吸睛，但也很花钱。一个快问快答问题，如果给你的企业100亿元推进具身智能发展，这笔钱你怎么花？

王潜：我觉得我首先把市场上能吸纳的好人才都吸纳过来。其次是算力和数据源。

程昊：首先我觉得100亿不太够（笑）。如果我只有100亿，会找更多朋友一起推进行业。比如投资到智源研究院，吸引全球研究人才心无旁骛做长期技术突破。

王鹤：我觉得100亿并不重要，重要的是怎么用事业和坚定进展吸引人才加入。我们不希望大家为钱每天睁开眼睛，而是为未来人与机器人共生世界。

我也认为，会用这十亿美金支持智源研究院。

罗剑岚：我觉得我会构建世界上最大的自我进化、自我闭环数据飞轮。100亿可以说很多，也可以说不算多，但第一个用100亿做这件事的人和机构还不存在。

赵行：我也想构建最大数据引擎，能把物理世界信息全都数字化下来。

张家兴：我希望设计属于我们的具身智能基础模型，然后做大规模预训练，真的能Scale Up上去。

性价比服务器服务器教程

本文由主机测评网于2026-01-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260120900.html

2025智源具身智能圆桌论坛：百亿投资策略与数据瓶颈突破

长沙：从消费天堂到全球研发中心的创新转型之路

远程连接Mac操作ClaudeCode遇Invalid API Key？别慌！（详细登录解决教程）

2025智源具身智能圆桌论坛：百亿投资策略与数据瓶颈突破

长沙：从消费天堂到全球研发中心的创新转型之路

远程连接Mac操作ClaudeCode遇Invalid API Key？别慌！（详细登录解决教程）

相关文章