当前位置:首页 > 科技资讯 > 正文

具身智能:无共识状态下的技术演进与产业机遇

在技术发展的早期阶段,人们往往倾向于寻找唯一正确的技术路径,希望通过一次性的战略押注来突破未知的迷雾。然而,具身智能的复杂性正警示着整个行业:真正的智能并非源于单一的技术路线,而是在无数次的尝试、冲突与协调过程中被逐步‘雕刻’成形。模型的不完美、数据的不完整以及架构的不统一,这些看似缺陷的特质,恰恰构成了具身智能最具活力的生命力源泉。

正如预期,具身智能在2025年末依然以高歌猛进的姿态向前发展。

更在预料之中的是,具身智能领域至今尚未形成统一的技术共识。

在2025年智源具身OpenDay圆桌论坛上,国内顶尖的具身智能从业者展开了一场“各抒己见的坦诚对话”,无论是模型架构的抉择,还是数据策略的应用,都未能在讨论中达成一致方向。一时间,许多人对具身智能仍缺乏共识感到些许惋惜。

但具身研习社指出,“无共识”的另一面恰恰意味着具身智能依然充满想象空间,技术突破很可能在意料之外悄然降临。毕竟,一旦风向过于明确,反而会令创新失去趣味。当我们不再盲目追求“确定性”,反而能洞察到一些潜在趋势。或许,“无共识”本身就是当前阶段最宝贵的共识。

具身智能:无共识状态下的技术演进与产业机遇 具身智能 模型架构 数据需求 技术创新 第1张

从产业发展的角度审视,共识的缺失具有三重积极意义:

首先,无共识本质上瓦解了单一技术路线可能形成的垄断话语权,防止行业陷入“路径依赖”的创新僵局。在具身智能领域,从“分层架构与端到端模型”的技术路线之争,到“通用人形机器人与垂直场景具身智能”的落地选择分歧,无共识状态为不同技术理念、多元学科背景的团队提供了平等的探索与试错机会;

其次,成熟行业的共识往往伴随着高昂的准入门槛,而具身智能的“无共识”现状,为中小企业、初创团队乃至跨界入局者创造了弯道超车的可能。新玩家无需拘泥于既定的技术标准或商业规则,可以凭借自身的差异化优势切入赛道。

第三,具身智能作为一门高度交叉的前沿学科,其技术基础仍在快速迭代,过早形成共识反而可能固化技术演进路径,限制行业向更高维度突破。无共识状态的核心价值,在于为技术迭代预留了宝贵的“弹性空间”。

在智源具身OpenDay圆桌论坛上,诸多“无共识”的讨论,恰恰折射出更多的可能性。具身研习社基于与会嘉宾的分享,提炼出具身智能发展的五大关键信号,未来的方向或许就隐藏在这些信号之中。

模型尚存局限,行业呼唤全新范式

信号1:世界模型暂时难以独挑大梁

在具身智能的模型讨论中,“当红炸子鸡”世界模型是一个无法回避的话题。

其核心价值在于“预测”能力。让机器人能够像人类一样,根据当前环境状态预判后续变化,进而规划行动,这一点得到了圆桌嘉宾的广泛认同。北京大学助理教授、银河通用创始人王鹤以机器人运动控制为例指出,无论是人形机器人的足式移动、舞蹈,还是灵巧手的精细操控,其底层控制逻辑都离不开对物理交互的预测能力,而世界模型恰好能为此提供支撑。但要让世界模型真正服务于机器人,其训练数据必须包含更多机器人本体产生的数据。

然而,世界模型的短板同样明显,难以单独成为具身智能的“终极解决方案”。王鹤强调,当前许多世界模型依赖于人类行为视频进行训练,但机器人的身体结构(如轮式底盘、多自由度机械臂)与人类存在显著差异,这些数据对机器人实际操作的指导价值有限。加速进化创始人兼CEO程昊也提到,在烹饪、复杂装配等真实场景中,世界模型的预测精度仍然不足,因此只能先通过分层模型解决简单任务,再逐步迭代升级。

信号2:模型需“另辟蹊径”专门打造

既然现有模型难以完全满足需求,“打造专属于具身智能的模型”成为不少企业的共同选择。

清华大学交叉信息学院助理教授、星海图CTO赵行表示,具身智能需要平行于大语言模型的“大型动作模型”(Large Action Model),这类模型应以“动作”为核心,而非语言。他解释道,人类智能的进化历程是“先有动作、再有视觉、最后有语言”,机器人要适应物理世界,也应遵循类似逻辑——例如驾驶车辆时,人类依靠视觉观察路况、依靠动作操控方向盘,语言并未参与核心操作流程,因此具身模型应优先打通“视觉-动作”的闭环链路。

自变量创始人兼CEO王潜的观点更为具体,他认为具身智能需要一套“物理世界基础模型”,既能控制机器人动作,又能作为世界模型预测物理规律。虚拟世界的多模态模型依托文字、图片训练,但物理世界中的摩擦、碰撞、力反馈等精细过程,却难以用语言精确描述。当一个机器人抓取鸡蛋时,它需要感知蛋壳的脆弱程度、实时调整握力,这种对物理属性的深度理解,必须依赖专门针对物理世界训练的模型。

信号3:从底层架构开启革新之旅

过去几年,Transformer架构凭借其强大的跨模态处理能力,支撑了ChatGPT等大语言模型的爆发式增长,但在具身智能领域,它的适用性正受到质疑。招商局集团AI首席科学家张家兴是这一观点的代表,他直言“具身智能不能重走从LLM到VLM的老路”。

在他看来,Transformer架构以语言为核心,将视觉、动作等其他模态向语言对齐映射,这与物理世界的操作逻辑相悖——人类执行动作时,视觉感知直接指导肌肉运动,无需经过语言的“翻译”中转。他透露,硅谷的头部团队已在探索“视觉优先”或“视觉-动作优先”的全新架构,让视觉和动作直接交互,减少语言中介带来的效能损耗。

王鹤补充道,Transformer作为一种跨模态的Attention机制,具有很好的通用性。例如,它能处理文本、视频、声音等多种模态。但“当前具身智能面临的挑战在于,人类拥有眼、耳、口、鼻、舌等多种感知通道,虽然从Attention的角度,将这些‘感知’Token化后都能输入Transformer,但其输出效果似乎并不理想,根本挑战在于数据问题以及与之匹配的学习范式”。

王鹤提出,短期来看,仿真模拟与合成数据是加速探索进程的核心手段;长期来看,现实世界中人形机器人的部署规模必须持续快速扩张,只有足够庞大的“机器人人口”与能力提升形成正向循环,才能催生真正强大的具身大模型。

这种底层架构的不匹配,让行业清醒认识到:要实现具身智能的实质性突破,或许需要从架构根源上进行革新,而非在现有框架内进行零星的修补。

数据仍是关键瓶颈,需求日益膨胀

信号4:没有完美数据,只有适配场景的选择

“数据是具身智能的燃料”已成为圆桌论坛的共识,但“使用何种数据”却没有标准答案。由于不同数据类型各有利弊,企业普遍采取“多源融合、按需选取”的策略,根据具体任务场景匹配最合适的数据来源。真机数据是最“保真”的选择,能直接反映真实物理世界的交互规律,因此成为精细操作场景的首选。赵行所在的星海图团队,便坚持深入真实场景采集数据,他们将数据的真实性、质量视为真实机器人数据采集的起点。智元机器人合伙人、首席科学家罗剑岚也强调,智元机器人同样坚持使用真实数据,并且在数据采集中注重真实场景而非单纯依赖数据工厂,探索一条通过机器人自主产生数据、构建数据飞轮的道路。而仿真数据则凭借“低成本、可规模化”的优势,成为底层控制训练的主力军。王鹤认为,在强化学习中,许多极端场景(如机器人摔倒、机械臂过载)难以在真机上反复测试,而仿真器可以快速生成大量类似数据,帮助模型学习应对策略。在他看来,模拟器并非对真实世界的否定,而是以模拟器为起点,为具身企业提供一个良好的基础控制器,从而在真实世界中更高效地转动数据飞轮。

程昊的加速进化团队也采用类似策略,先用仿真数据让机器人掌握基本运动控制能力,再用真机数据微调以适应真实场景。“我们使用仿真数据训练的一个核心目标,是让机器人后续能更高效地获取真实数据,有了真实数据,整体能力才能实现跃升。”在程昊看来,这很可能是一个螺旋式上升的过程。

视频数据则成为基座模型训练的重要补充。智源研究院院长王仲远认为,“通过视频数据训练基座模型”这一逻辑,与当下儿童通过观看手机视频认识世界的过程相似——先通过视频学习世界的基本样貌,再通过真实的交互体验来提升实际技能。这些视频数据蕴含时空、因果、意图等多维度信息,且易于大规模获取,是当前缺乏海量真机数据时的“折中最优解”。但在具身研习社追问“如何从视频中学习触觉与力控等精细化数据?”时,王仲远也坦言,视频数据确实缺乏力反馈、触觉等信息,但这并不否定其价值。目前智源研究院具身智能实验室也已配备带力反馈数据采集的设备。视频数据更多用于“打下基础”,仍需结合其他数据进行针对性优化与微调。

信号5:“数量”“质量”“种类”,具身企业全方位渴求数据

随着具身智能向复杂场景深入渗透,行业对数据的需求正不断升级,不仅追求“量”的扩大,更强调“质”的提升与“种类”的丰富,形成了日益膨胀的“数据胃口”。

首先是“量”的渴求,“互联网级别”的数据规模已成为行业的共同期待。如赵行认为,数据的规模化能够反向驱动模型的进化与智能的实现。王仲远也表示,“更强大的具身大模型,可能需要等待大量机器人在真实场景中解决具体问题、累积起‘具身智能互联网’级别的数据之后,才会真正涌现”。换言之,没有充足的数据,模型就像未吃饱的孩子,既跑不快也长不壮。

当业内为Generalist模型构建的27万小时真机数据集触及所谓规模化法则而欢呼时,王仲远对具身研习社坦言,“几十万小时的数据依然不能称为海量数据,距离‘ChatGPT时刻’还相当遥远”。

具身智能:无共识状态下的技术演进与产业机遇 具身智能 模型架构 数据需求 技术创新 第2张

在“量”之外,是对“质”的追求,“高质量数据比海量低质数据更具价值”的观点逐渐成为主流。王潜认为,数据固然重要,但并非简单的“越多越好”。

事实上,语言模型的发展历程已经验证,单纯堆砌数据规模未必带来最优效果,高质量、高效率的数据才是决定性因素。他认为在具身场景中,数据质量比数据总量更能产生量级上的差距。在此,位于金字塔顶端的真机数据或许可以数量不多,但很可能是奠定基础或弥补仿真、视频数据不足的关键所在。

最后是“种类”的丰富,多模态数据的需求日益迫切。随着机器人应用场景的扩展,单一类型的数据已无法满足需求。例如在家庭服务场景中,机器人需要同时处理视觉(识别物体)、听觉(理解指令)、触觉(感知物体软硬)、力反馈(控制动作力度)等多维度信息。当前业内常说的多模态能力,更多是继承自基座大模型的视觉、语言能力,而在真正物理交互中至关重要的触觉、力反馈等模态数据仍非常稀缺。

这种对数据种类日益丰富的需求,也让行业意识到:未来的数据采集,不仅要记录“机器人做了什么”,还要记录“环境发生了什么”、“交互产生了何种反馈”、“人类有何种需求”,如此才能让模型更深入地理解物理世界、更精准地响应人类需求。在技术的早期探索阶段,总有人试图寻找唯一正确的路线,希望通过一次性押注来穿越迷雾。但具身智能的复杂性正提醒整个行业:真正的智能并非从单一路径中生长出来,而是在无数次试错、冲突与调和中被精心“雕刻”成形。模型的不完美、数据的不完整、架构的不统一,这些听上去像是缺陷,却恰恰构成了具身智能最真实、最蓬勃的生命力所在。