当前位置:首页 > 科技资讯 > 正文

特斯拉Optimus训练战略革新:纯视觉方案引领机器人学习新范式

特斯拉Optimus训练战略革新:纯视觉方案引领机器人学习新范式 特斯拉 Optimus机器人 纯视觉训练 视频数据学习 第1张

近日,据《商业内幕》报道,特斯拉将其在自动驾驶技术中一贯秉持的纯视觉方案,全面拓展至人形机器人Optimus的训练体系之中,实现了核心技术路径的深度协同。

据内部知情人士向《商业内幕》透露,特斯拉已于今年6月下旬正式通知员工,公司未来的战略重心将更加聚焦于通过纯视觉方案来驱动Optimus人形机器人的训练进程。

此前,特斯拉的训练方法主要依赖于动作捕捉服与虚拟现实(VR)头显设备,用以记录人类操作员的动作数据并对机器人进行远程操控。如今,战略转向后,公司将核心通过录制工作人员执行各类任务的视频来训练机器人,使其自主学会完成诸如抓取物品或折叠衣物等日常动作。

内部人士进一步指出,特斯拉评估认为,放弃传统的动作捕捉服与远程操控方式,将使研发团队能够以更高效率规模化扩展数据收集能力。

此项调整标志着特斯拉在机器人发展战略上的一次关键性转变,这也使得Optimus的学习方式与埃隆·马斯克长期推崇的核心理念保持高度一致:人工智能系统仅通过摄像头输入便能掌握复杂的现实世界任务。特斯拉在其自动驾驶系统的训练中也广泛采用了相似的方法论。

突破传统范式

在机器人训练领域,远程操作与动作捕捉技术一直是行业内的标准实践。例如,顶尖机器人公司波士顿动力便曾运用远程操作来训练其Atlas机器人。在训练过程中,操作人员穿戴动作捕捉服执行任务,相关数据被同步传输至机器人本体。动作捕捉服本身也可用于实现对机器人的直接远程控制。

目前尚不明确特斯拉未来是否会重新启用动作捕捉服与远程操作作为优先选项,或者是否会利用新收集的视频数据对以往通过传统方式获取的信息库进行增强与迭代训练。

人类与机器认知研究所的高级研究科学家罗伯特·格里芬对此评论道,丰富的远程操作数据能使机器人通过与物理环境的直接互动进行学习。他表示,教导机器人将二维视频数据转化为三维空间中的实际行动是一项显著挑战。

“如果仅仅依赖于视频数据,就缺失了这种与环境直接交互的体验。”他解释道。

今年5月,特斯拉曾公开发布一段演示视频,画面显示Optimus机器人似乎正在依据视频录像的指导完成一系列操作任务。

特斯拉Optimus训练战略革新:纯视觉方案引领机器人学习新范式 特斯拉 Optimus机器人 纯视觉训练 视频数据学习 第2张

图示|Optimus机器人

特斯拉负责Optimus硬件研发的总监康斯坦蒂诺斯·拉斯卡里斯似乎已在公开场合证实了这一新策略。今年5月,他在领英上发文称:“这听起来或许令人难以置信,但我们的机器人正在通过直接观察人类视频来学习新技能!”

马斯克同样在5月表示,Optimus最终将能够通过观看诸如YouTube上的海量视频来学习并执行各类任务。

据内部人士称,在此次技术路线转型期间,特斯拉曾短暂暂停了Optimus团队的招聘工作。截至8月底,特斯拉官方招聘页面上仍然列出了超过50个与Optimus项目相关的职位空缺。

技术路径的深化转型

知情人士透露,在6月底战略调整之前,特斯拉依然通过远程操作和动作捕捉服来训练Optimus。工作人员需要投入大量时间排查动作捕捉设备与机器人本体之间的兼容性问题,这在客观上限制了团队能够有效收集的数据总量。

自训练模式转变以来,员工们开始着力于使用5个由内部自制的专用摄像头来记录自身的动作细节。这些摄像头被安装在员工佩戴的特制头盔和专用背包上,从多个角度进行拍摄,旨在为AI模型提供极其精确的环境空间定位数据。

佛罗里达州立大学FAMU-FSU工程学院机器人实验室主任克里斯蒂安·胡比茨基分析认为,多角度视频采集可能助力特斯拉捕获更为精细的关节运动细节,“例如手部关节与手指的精确位姿”,并实现机器人对自身在空间中位置的精准定位。他指出,这些视频数据同样可用于增强此前通过远程操作所积累的数据集。

参与训练数据采集的工作人员会接收到非常具体的动作指令,尤其是在手部精细操作方面,必须确保其动作尽可能符合自然的人类运动形态。有知情者表示,部分员工甚至需要花费数周或数月时间,反复执行同一个基础性动作以确保数据质量。

谢菲尔德大学机器人学专家乔纳森·艾特肯向《商业内幕》表示,特斯拉很可能需要构建一套方法,教会Optimus掌握那些能够泛化至多种不同任务的通用化动作基元。

“在这种规模的应用场景下,他们必须建立起一个通用的动作库,否则为每一个单一动作进行独立训练将耗费近乎无限的时间成本。”艾特肯阐述道。

他补充说,特斯拉或许会采纳与Physical Intelligence公司类似的策略,即向机器人模型输入海量的示范性数据,使其能够从中学习可迁移的技能并灵活组合应用,而非仅仅死记硬背单项任务的具体操作步骤。

挑战远超自动驾驶

这一崭新的训练策略与特斯拉用于培育其自动驾驶系统的方案一脉相承。尽管其他多数自动驾驶技术公司广泛采用激光雷达和雷达传感器来训练其算法软件,特斯拉则主要依托其车辆上搭载的多个摄像头阵列。

特斯拉利用从其全球数百万辆车主车辆上持续收集的数据进行训练,这些车辆普遍配备了八到九个摄像头。马斯克曾表示,特斯拉能够成功在中国市场推出其高级辅助驾驶系统,部分归功于公司利用公开的亚洲城市街道视频资源对其AI系统进行了针对性训练。

然而,马斯克在今年1月的财报电话会议上也坦言承认,“针对Optimus人形机器人的训练需求,其复杂度和数据量最终可能至少是训练汽车所需规模的十倍以上。”

艾特肯对此评价道:“这是极具特斯拉风格的机器人开发路径。目前尚无其他公司在同等宏大尺度上进行过类似尝试。他们所需处理的数据量级,预计将与训练自动驾驶汽车时所使用的数据量相当。”

俄勒冈州立大学人工智能与机器人领域专家艾伦·费恩指出,对特斯拉而言,训练Optimus的难度将远超开发自动驾驶汽车。

“驾驶在本质上是一个相对单一的任务域。”费恩称。他进一步阐释,主要依靠视频进行学习要求机器人首先理解视频中所展示的场景与意图,继而需要具备将理解转化为实际动作的技能组合,“一部分技能或许可以通过观察来习得,但另一部分更依赖物理交互的技能,则必须在模拟环境或现实世界中进行大量的实践与试错”。

截至本文发稿时,特斯拉官方尚未就相关事宜予以置评。