当前位置:首页 > 科技资讯 > 正文

2025年机器人领域的三大启示

“机器人领域尚未达到成熟阶段。”

这是英伟达机器人主管Jim Fan在2025年年末的评论。

乍一听,这个结论可能有些令人惊讶。

然而,这一年里,我们目睹了机器人打乒乓球、打篮球,完成复杂的远程搬运与跨场景任务——

2025年机器人领域的三大启示 机器人领域 硬件软件 基准测试 VLA 第1张

当然,也不乏各种“翻车”场景。

2025年机器人领域的三大启示 机器人领域 硬件软件 基准测试 VLA 第2张

但正如Jim Fan和聪明的网友反复指出的那样:

许多演示,实际上只是从多次尝试中选取的最佳一次。

2025年机器人领域的三大启示 机器人领域 硬件软件 基准测试 VLA 第3张

这恰恰暴露了机器人领域缺乏统一、可复现的标准评测体系的核心问题。

因此,几乎任何人都能通过添加限定词,宣称自己达到了SOTA。

2025年机器人领域的三大启示 机器人领域 硬件软件 基准测试 VLA 第4张

此外,Jim Fan还指出——

当前机器人硬件进展快于软件,但硬件可靠性不足,反而限制了软件的迭代速度;同时,主流的VLM→VLA技术范式本身也存在结构性问题。

机器人领域的三个关键教训

在节日氛围中,请允许我分享我对“机器人领域狂野西部”的焦虑——这是我在2025年学到的三个教训。

硬件领先软件,但硬件可靠性严重限制了软件迭代速度

我们已见证了许多卓越的工程作品:Optimus、e-Atlas、Figure、Neo、G1等。

但问题是我们最先进的AI还未能完全发挥这些前沿硬件的潜力。(机器人)身体的能力,明显强于大脑目前的指令能力

然而,要“照顾”这些机器人,往往需要一整支运维团队。

机器人无法像人类一样自我修复:过热、马达损坏、固件问题,几乎是日常噩梦。

一旦出错,便是不可逆且无法宽容的。

机器人领域的基准测试,依然是一场史诗级灾难

在大型模型世界中,大家都知道MMLU、SWE-Bench等评测工具。

但在机器人领域没有任何共识:用什么硬件平台、任务如何定义、评分标准是什么、用哪种模拟器,还是直接进行真实世界测试?

每个人都可以从多次失败中挑选出最好的演示

基于VLM的VLA路线,总感觉不太对

VLA指的是Vision-Language-Action(视觉-语言-动作)模型,这是当前机器人大脑的主流范式。

其构建方式很简单:在预训练的VLM基础上“嫁接”一个动作模块。

但仔细思考就会发现问题。VLM本质上高度优化用于如视觉问答等评测任务。这带来了两个后果:

- VLM的大多数参数服务于语言和知识,而非物理世界;

- 视觉编码器被训练去丢弃低层细节,因为问答任务只需要高层理解,但对机器人来说,细节对精细操作至关重要。

硬件是关键,但数据同样重要

数据作为核心元素被忽略了。

2025年机器人领域的三大启示 机器人领域 硬件软件 基准测试 VLA 第5张