在这篇文章中,我将探讨为何尽管风险投资公司和大型科技公司投入巨资,人形机器人却仍未掌握真正的灵巧性。
在文章的结尾,我将对两个附加主题进行简短讨论。第一个主题关注双足人形机器人在行走时的安全问题;第二个主题则分析了未来15年内,尽管我们会拥有大量人形机器人,但它们的外形既不会如现在所见的人形机器人,也不会像人类。
自1956年“达特茅斯人工智能夏季研究项目”首次提出“人工智能”概念以来,研究者们一直致力于让机器人手臂和手部实现物体操控。到1961年,海因里希·恩斯特完成了一篇关于计算机控制式手臂和手部博士论文,相关过程还有视频记录。这一研究催生了工业机器人,如今已在全球工厂中广泛应用。
近年来,研究者们开始考虑制造人形机器人。高德纳表示,目前人形机器人仍处于发展初期。下图展示了人形机器人与生成式人工智能的发展周期对比:
人形机器人的设计理念是采用与人类相同的身体结构,并在为人类打造的环境中工作。例如,人形机器人公司Figure的首席执行官认为,应打造一种能执行数百万项任务的人形机器人。
特斯拉首席执行官也表达了类似观点,称擎天柱可能会创造巨大收入。然而,尽管许多人预测人形机器人将在未来五年内产生显著经济影响,但我认为这一目标在数十年内难以实现。
早在20世纪60年代中期,日本东京早稻田大学的研究者就开始研究双足行走机制;到70年代初,该校研制出了首台人形机器人WABOT-1。之后,日本汽车制造商本田和索尼也推出了各自的人形机器人。
此外,法国公司奥尔德巴兰推出了小型行走人形机器人NAO和Pepper,而波士顿动力则在2013年推出了人形机器人ATLAS。全球还有许多学术团队致力于类人形态机器人的研发。
数十年来,这些团队始终在探索如何让机器人在为人类打造的环境中行走、操控物体以及与人类互动。
从上世纪60年代起,操控物体一直是人形机器人的巨大挑战。尽管如今已有多种机器人手部形式,但多关节手指机器人手部仍未能满足实际应用需求。
尽管研究者们研制出了众多模仿人类手部的多关节手指机器人手,但这些设计尚无法展现出显著的灵巧性。
许多研究者认为,通过端到端学习训练人形机器人掌握灵巧操控能力是一种可行方法。然而,这种方法存在诸多局限性。
例如,Figure公司和特斯拉都坚信只需让机器人观看人类用手完成任务的视频就能习得灵巧性。然而,这种方法忽略了触觉感知的重要性。
过去20年,端到端学习在语音转文字、图像标注和大型语言模型领域取得了革命性突破。然而,这些成功都依赖于特定领域的早期数据预处理。
例如,语音转文字技术依赖于经过压缩的信号处理技术;图像标注技术则借鉴了人类的视觉系统结构;而大型语言模型则依赖于对人类语言的深入理解。
语音转文字技术依赖于对声音信号的采样、滤波和分割等预处理步骤。这些步骤的目的是从原始信号中提取有用的信息。
图像标注技术通过卷积神经网络等结构模拟了人类的视觉系统。这些网络能够识别图像中的局部特征并具备平移不变性。
大型语言模型的训练依赖于对人类语言的深入理解。这些模型通过令牌和嵌入机制将文本数据转换为可处理的格式。
尽管端到端学习方法在某些领域取得了成功,但在实现人形机器人的灵巧性方面仍存在巨大挑战。这些挑战包括收集正确的数据和确定正确的学习目标。
研究表明,人类在操控物体时依赖丰富的触觉感知。失去指尖触觉后,实验者无法完成简单的任务。
仅靠视觉数据无法推断出实现灵巧性的方法。需要收集包括触觉感知在内的多种数据。
当前的学习框架主要基于强化学习,但这种方法忽略了人类在规划任务时的灵活性。要实现真正的灵巧性,需要同时学习如何在子任务空间中规划和调整触觉感知。
尽管人形机器人的设计目标是与人类共享空间,但当前的双足行走人形机器人对人类并不安全。物理学规律表明,放大机器人尺寸会带来完全不同的潜在伤害。
“人形机器人”的定义将随时间变化。未来的人形机器人可能不再具备与人类相似的腿部和手臂形态,但仍会被称为“人形机器人”。
本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260542199.html