“机器人领域尚未达到成熟阶段。”
这是英伟达机器人主管Jim Fan在2025年年末的评论。
乍一听,这个结论可能有些令人惊讶。
然而,这一年里,我们目睹了机器人打乒乓球、打篮球,完成复杂的远程搬运与跨场景任务——
当然,也不乏各种“翻车”场景。
但正如Jim Fan和聪明的网友反复指出的那样:
许多演示,实际上只是从多次尝试中选取的最佳一次。
这恰恰暴露了机器人领域缺乏统一、可复现的标准评测体系的核心问题。
因此,几乎任何人都能通过添加限定词,宣称自己达到了SOTA。
此外,Jim Fan还指出——
当前机器人硬件进展快于软件,但硬件可靠性不足,反而限制了软件的迭代速度;同时,主流的VLM→VLA技术范式本身也存在结构性问题。
在节日氛围中,请允许我分享我对“机器人领域狂野西部”的焦虑——这是我在2025年学到的三个教训。
我们已见证了许多卓越的工程作品:Optimus、e-Atlas、Figure、Neo、G1等。
但问题是我们最先进的AI还未能完全发挥这些前沿硬件的潜力。(机器人)身体的能力,明显强于大脑目前的指令能力。
然而,要“照顾”这些机器人,往往需要一整支运维团队。
机器人无法像人类一样自我修复:过热、马达损坏、固件问题,几乎是日常噩梦。
一旦出错,便是不可逆且无法宽容的。
在大型模型世界中,大家都知道MMLU、SWE-Bench等评测工具。
但在机器人领域没有任何共识:用什么硬件平台、任务如何定义、评分标准是什么、用哪种模拟器,还是直接进行真实世界测试?
每个人都可以从多次失败中挑选出最好的演示。
VLA指的是Vision-Language-Action(视觉-语言-动作)模型,这是当前机器人大脑的主流范式。
其构建方式很简单:在预训练的VLM基础上“嫁接”一个动作模块。
但仔细思考就会发现问题。VLM本质上高度优化用于如视觉问答等评测任务。这带来了两个后果:
- VLM的大多数参数服务于语言和知识,而非物理世界;
- 视觉编码器被训练去丢弃低层细节,因为问答任务只需要高层理解,但对机器人来说,细节对精细操作至关重要。
数据作为核心元素被忽略了。
本文由主机测评网于2026-06-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260647179.html