当前位置：首页 > 科技资讯 > 正文

2025年机器人领域的三大启示

“机器人领域尚未达到成熟阶段。”

这是英伟达机器人主管Jim Fan在2025年年末的评论。

乍一听，这个结论可能有些令人惊讶。

然而，这一年里，我们目睹了机器人打乒乓球、打篮球，完成复杂的远程搬运与跨场景任务——

2025年机器人领域的三大启示机器人领域硬件软件基准测试 VLA 第1张

当然，也不乏各种“翻车”场景。

2025年机器人领域的三大启示机器人领域硬件软件基准测试 VLA 第2张

但正如Jim Fan和聪明的网友反复指出的那样：

许多演示，实际上只是从多次尝试中选取的最佳一次。

2025年机器人领域的三大启示机器人领域硬件软件基准测试 VLA 第3张

这恰恰暴露了机器人领域缺乏统一、可复现的标准评测体系的核心问题。

因此，几乎任何人都能通过添加限定词，宣称自己达到了SOTA。

2025年机器人领域的三大启示机器人领域硬件软件基准测试 VLA 第4张

此外，Jim Fan还指出——

当前机器人硬件进展快于软件，但硬件可靠性不足，反而限制了软件的迭代速度；同时，主流的VLM→VLA技术范式本身也存在结构性问题。

机器人领域的三个关键教训

在节日氛围中，请允许我分享我对“机器人领域狂野西部”的焦虑——这是我在2025年学到的三个教训。

我们已见证了许多卓越的工程作品：Optimus、e-Atlas、Figure、Neo、G1等。

但问题是我们最先进的AI还未能完全发挥这些前沿硬件的潜力。（机器人）身体的能力，明显强于大脑目前的指令能力。

然而，要“照顾”这些机器人，往往需要一整支运维团队。

机器人无法像人类一样自我修复：过热、马达损坏、固件问题，几乎是日常噩梦。

一旦出错，便是不可逆且无法宽容的。

在大型模型世界中，大家都知道MMLU、SWE-Bench等评测工具。

但在机器人领域没有任何共识：用什么硬件平台、任务如何定义、评分标准是什么、用哪种模拟器，还是直接进行真实世界测试？

每个人都可以从多次失败中挑选出最好的演示。

VLA指的是Vision-Language-Action（视觉-语言-动作）模型，这是当前机器人大脑的主流范式。

其构建方式很简单：在预训练的VLM基础上“嫁接”一个动作模块。

但仔细思考就会发现问题。VLM本质上高度优化用于如视觉问答等评测任务。这带来了两个后果：

- VLM的大多数参数服务于语言和知识，而非物理世界；

- 视觉编码器被训练去丢弃低层细节，因为问答任务只需要高层理解，但对机器人来说，细节对精细操作至关重要。

数据作为核心元素被忽略了。

2025年机器人领域的三大启示机器人领域硬件软件基准测试 VLA 第5张

本文由主机测评网于2026-06-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260647179.html