具身智能是否会是2025年最大的“泡沫”?
年初,宇树科技发布了一款售价5900美元的R1人形机器人,这一举动打破了业界对人形机器人成本底线的预期。紧接着,Figure AI的估值从26亿美元飙升到390亿美元,投资方名单星光熠熠,包括微软、OpenAI、英伟达等巨头。
资本市场对人形机器人技术的前景充满信心,但现实却并非如此乐观。特斯拉虽然喊出了要生产5000台Optimus的豪言,但实际上只组装了约1000台就不得不暂停项目,面临重新设计。马斯克关于Optimus将占据特斯拉八成价值的言论,在现实面前显得尴尬。
具身智能到底是什么?它发展到哪一步了?本文将围绕算法、硬件、数据、资本以及主要大玩家的技术路线等方面进行详细解读。
具身智能的核心是VLA(Vision-Language-Action),即视觉-语言-动作模型。它通过统一视觉、语言、动作三种能力,实现环境的理解、指令的接收和动作的执行。
与传统机器人相比,具身智能机器人更像能即兴表演的演员,能自主应对环境变化,做出决策。例如,在叠毛巾的任务中,传统机器人需要毛巾摆放位置完全一致,而具身智能机器人则能根据实际情况调整动作轨迹。
York Yang
Dyna Robotics联合创始人
VLA简单来说就是我们在大模型领域使用VLM作为“backbone”,但最终输出结果会转化为机器人领域可用的action。这些action包括将手臂移动到某一坐标点的命令。
为什么具身智能在2025年突然爆发?主要有三个原因:大模型成熟、算力价格下降以及硬件供应链成熟。
在工业和商业场景中,具身智能已有实际应用。例如,Dyna的机器人能24小时叠700条毛巾,成功率达99.4%。宝马集团的工厂里,Figure的机器人在做简单装配和物料搬运。
目前还在攻克的任务包括中等难度的任务,如做早餐。Dyna最新的demo显示已经攻克了做早餐这个长线任务。
最难的是家务任务,因为家庭环境复杂多变。机器人在工厂打碎零件的损失可控,但在家里打碎碗或伤人就是事故。
王浩
自变量机器人CTO
例如,当机器人执行任务时,桌布上的小褶皱或反光物体都可能干扰相机。这些微小的物理变化,人类可以凭直觉和经验瞬间适应,但AI大模型可能无法真正感受到。
“System 1 + System 2”架构开始流行。System 1负责反射性动作,参数量小、响应快;System 2负责复杂规划,参数量大。
NVIDIA用模拟器生成合成数据,解决了数据稀缺的问题。尽管合成数据与真实数据有差距,但至少解决了燃眉之急。
“π0模型”和“OpenVLA模型”等能控制多种不同的机器人。这种跨机器人泛化能力降低了训练成本。
Figure展示过用单一神经网络协调两台机器人协作。这种技术突破在未来工厂场景中将非常有用。
机器人操作数据极度稀缺。大多数机器人基础模型仍依赖于少量真实数据加大量模拟合成数据。
“Sim-to-Real Gap”指虚拟世界与真实世界的差距。尽管模拟器可以降低成本,但无法完全还原真实世界的物理特性。
“Embodiment Gap”指人类手与机器人手的差距。尽管技术进步,但机器人在某些任务上仍无法完全模仿人类。
“可靠性”是具身智能必须达到的标准。机器人在执行任务时一旦出错可能导致严重损失。
“成本困境”指人形机器人价格需要降至约两万美元才能在物流等场景形成足够吸引力。
“软硬件一体化”策略是这些公司的特点。Tesla利用FSD技术积累将视觉感知、路径规划能力迁移到Optimus上。
“模型先行、跨平台适配”是这些公司的策略。PI的π0模型不绑定特定硬件,能适配多种机器人。
“生态平台”提供模拟器和算力基础设施。NVIDIA和Google为整个行业提供“水电煤”。
本文由主机测评网于2026-06-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260647155.html