当前位置:首页 > 科技资讯 > 正文

2026人形机器人灵巧手元年:技术路径、算法挑战与未来展望

2026年,被视为人形机器人规模化量产的起始之年。最显著的信号源自特斯拉,其“金色擎天柱”Optimus Gen 3预计在2026年第一季度面世,并计划在年底前建立产能高达100万台的生产线。马斯克多次强调,特斯拉未来约80%的价值将来自机器人领域,而非传统汽车业务。而“擎天柱”的攻关核心,正聚焦于它的“手与前臂”设计。

灵巧手,依据驱动方案主要分为三大技术路径,每一类都有各自的代表:

【连杆方案】充分体现了机械设计的美学,但通常意味着自由度较低,不过也有以韩国ILDA为代表的高自由度灵巧手例外。

【绳驱方案】优势在于轻量化、自由度高、力量输出稳定。特斯拉的Optimus和在硅谷101 Alignment科技大会上演示开可乐罐的TetherIA灵巧手,都是绳驱方案中“单向拉绳”的代表;而“双向拉绳”的代表则有被誉为“灵巧手皇冠明珠”的Shadow Robot和ORCA Hand。但这类方案也面临走线延伸、材料蠕变、装配复杂度高等挑战。

【直驱方案】优点在于便于精细控制。在行业展会上,Sharpa机器人凭借一双电机直驱灵巧手令人惊艳,它能一张一张地分发扑克牌,并能手持相机按下快门。劣势则是抗冲击能力较弱,重量较大等。

本期《硅谷101》,主持人泓君邀请了灵巧手模型算法与硬件领域的两位专家——来自亚马逊及前Meta的机器人研究科学家齐浩之,以及TetherIA联合创始人陶一伟,共同探讨灵巧手的现状、不同技术路线的特点,以及它在数据与算法方面面临的挑战。

嘉宾们认为,对于灵巧手头部公司而言,短期内针对特定任务打造一个成功的演示并不困难,真正的突破在于通用性与可扩展性。当算法能让机器人在短时间内学会开可乐、开门、拧螺丝等多样化灵巧操作时,才意味着灵巧手达到了类似ChatGPT的泛化突破阶段。

01机器人灵巧手的能力与挑战

泓君:或许听众最困惑的是,在许多演示中,我们看到机器人可以拿吸尘器、倒垃圾、烧水,甚至将盘子放入洗碗机。我记得特斯拉某次发布会上,擎天柱现场为观众倒酒,这双手看起来已相当智能。那么,能否概括一下,目前机器人的手能应对哪些场景?它发展到了何种程度?

齐浩之:好的,我认为在遥操作情境下,如果手部无需执行精细动作,那是一个相对简单的问题,例如擎天柱倒酒,只需将手放在酒瓶把手上并下压,这在控制上较为直接。

与之相对的是,若我们希望机器人使用家庭中的各类工具,如螺丝刀、剪刀等,这过程需要手指进行更精细灵巧的操作,难度便会大幅增加。此外,还需适应千家万户中不同的工具,这使挑战呈指数级上升。

2026人形机器人灵巧手元年:技术路径、算法挑战与未来展望 灵巧手 人形机器人 特斯拉Optimus 绳驱方案 第1张

“擎天柱”(Optimus)展示倒酒 图片来源:X

泓君:您刚才提到了“精细运动”,另一个关键点我理解为“泛化能力”,即在不同场景中的适应能力,这两方面仍需加强。

陶一伟:我稍作补充,齐老师更多是从系统角度阐述,我则从硬件层面切入。一是提升现有硬件方案的可靠性,确保机器人能在真实环境中长时间稳定运行,与自然物体交互时不易损坏,这一点尚未完全实现。

同时,硬件仍需持续迭代,例如增加自由度、集成触觉传感。随着系统复杂性提升,可靠性又成为更大挑战。这是硬件端亟待推进的工作。

泓君:我举一个更形象的例子。在今年年会上,Evan曾现场用机器人演示开可乐。但在彩排时,状态并不稳定。例如,当我尝试让机器人开可乐时,随意放置了角度,此时可能需要机器人旋转罐体才能打开。旋转这个动作对机器人来说很困难吗?

陶一伟:确实,这是个很好的问题。开可乐看似只需一双手和一个指甲即可完成,但置于双臂机器人系统上,仍极具挑战性。我们仅初步演示,未来还有许多工作要做,如何使整个过程完全自动化且成功率极高,仍有很长的路要走。

可乐如何对准涉及精度问题,还需感知可乐的当前状态。人类可以用任意姿态抓起可乐罐,单手调整角度至最佳位置,另一只手再以完美状态拉开拉环。机器人仍需在硬件设计、控制等方面提升能力。

泓君:目前世界上是否有其他公司,例如在自由度上更领先的,能良好旋转可乐并打开?

陶一伟:我认为一些头部公司通过优化硬件、投入更多精力,也能实现类似演示。但目前尚未看到哪家公司能完全自主完成。这一点或许齐老师有更多见解。

泓君:没错,齐老师曾有论文涉及利用视觉与触觉实现手内旋转,应是这方面的专家。

齐浩之:我的看法是,当前各公司有不同的宣传策略或研发侧重点。例如,像陶总这样的硬件厂商,目标在于证明其硬件性能优异,无论是机械结构还是控制系统,因此展示炫酷演示是很好的方式。

相对地,一些专注于灵巧手算法而非硬件的公司,可能较少展示此类能力,而更注重体现泛化性。

正如陶总所说,若仅优化单一视频,部分头部硬件厂商或算法研究院可以做到。但从长远看,我们更应关注何种灵巧手构型能适应最多种类任务,以及对算法接口最为友好。

2026人形机器人灵巧手元年:技术路径、算法挑战与未来展望 灵巧手 人形机器人 特斯拉Optimus 绳驱方案 第2张

泓君:那么,根据您的研究,目前是否有公司能做到随意放置可乐罐——且不说任何环境——仅就罐体与开口未正对机器人手部时,仍能将其打开?

齐浩之:我认为目前尚无这样的公司。若某公司决心完成此任务,技术上或需数月时间,但可能消耗大量资源和时间。出于公司路线考量,他们可能不会专注于此,而更倾向于改进算法,以缩短未来实现类似任务的时间。

泓君:也就是说,他们不会针对单一任务优化,而是希望适应尽可能多的任务,更看重泛化性。

齐浩之:是的。

泓君:了解。照此来说,我印象中Figure AI曾发布视频,显示机器人能将盘子放入洗碗机。这视频是多次失败后挑选的成功案例?还是如您所说,仅通过遥操作进行的展示,并不代表机器人具备此类能力?

齐浩之:这方面没有确切信息源。但我认为现有算法能在固定场景下较容易地拍摄此类视频,例如任务成功率或达80%-90%,此时拍摄自主完成的视频难度并不极高。但距离人形机器人走入千家万户,差的是如何在每个场景下均以100%成功率完成任务。例如放置盘子入洗碗机,90%成功率可能不足,因为十个盘子若碎一个,用户便不愿使用。因此需改进成功率及泛化性问题。

泓君:所以当前灵巧手领域关注的仍是泛化性。

陶一伟:对,我补充一点,我们需细分每个任务的难度。泓君您提到的装入和取出碗碟,任务可拆解为拿起碗碟、打开洗碗机门、放入架子等步骤,正如齐老师所说,属于相对简单的抓取和拉杆操作。这与开可乐的难度不在同一量级。

仔细分析开可乐,它需要单手从桌面拿起可乐、调整罐口方向,另一只手从空气中对准后以合适角度卡入拉环,并以恰当角度和力度拉开。过程中,双手需协同操作,一手对抗拉力,同时确保手指不过度用力捏爆易拉罐。从机器人控制系统看,这比收纳碗碟复杂得多。

2026人形机器人灵巧手元年:技术路径、算法挑战与未来展望 灵巧手 人形机器人 特斯拉Optimus 绳驱方案 第3张

泓君:那么大家认为,当前灵巧手的瓶颈究竟在哪?是机器人行业的共性问题,如模型和泛化性,还是灵巧手自身存在独特难题?

陶一伟:灵巧手不能仅视为硬件模块,其价值需结合至少一个双臂系统才能体现,这构成最小可工作单元。但若要其在环境中泛化执行任务,便需要移动底盘或平台。有了移动平台,又会涉及轮式或全人形设计以适应复杂路面。因此,灵巧手的价值实现远非单一硬件模块可解决。

齐浩之:难点遍布机器人各个部分。常有人问我灵巧手最难之处,我认为目前硬件和软件均有很大提升空间。

软件层面,一些在机械臂或轮式机器人上成熟的机器学习算法,直接应用于灵巧手或人形机器人等复杂系统时,会出现未预料的问题。例如灵巧手可能有四五个手指,每个手指多个关节,均可能与环境或物体交互。如何确保这些交互产生有利影响?若用夹爪抓取,仅需考虑两个接触点;但给予10个接触点时,如何分别控制?某些接触点可能相互对抗,计算复杂度显著增加。

硬件层面,我2021-2022年开始研究灵巧手时,可选且可用的产品极少。近一两年,尤其是国内厂商及美国硬件公司进步显著,瓶颈逐渐减少。但我预测仍需几轮迭代,才能达到类似宇树机器人那样逐渐收敛的构型。

泓君:当前市售灵巧手形状、硬件各异,需根据硬件调配软件。

齐浩之:是的,以类人灵巧手为主,但各公司技术路线不同,如陶总公司采用绳驱方案,也有公司将电机置于手指的驱动方案。

02 盘点灵巧手硬件三大技术路径

泓君:业界流行的技术路径有几种:连杆驱动、绳驱(分单向和双向)、电机直驱。请简要介绍各路径优劣势、主流方向及收敛趋势。

陶一伟:我先从硬件角度谈,之后请齐老师补充使用者视角。

三大主要方式:连杆、绳驱、直驱。

连杆最早见于传统假肢手,通过底部驱动器(直线推杆、电缸或蜗轮蜗杆)产生旋转运动,实现手指弯曲。

这是传统六自由度低自由度灵巧手,更似手形,但手指运动轨迹自由度较低,指尖沿固定路线移动。大拇指侧摆后正对食指或中指,通过固定轨迹合拢,因此与夹爪相比特点不显著。此为低自由度连杆手特点。

泓君:低自由度灵巧手,六个自由度大致是五指合拢,另一个自由度在哪?

陶一伟:是大拇指侧面摆动。

泓君:即大拇指两个自由度,其余手指各一个。

2026人形机器人灵巧手元年:技术路径、算法挑战与未来展望 灵巧手 人形机器人 特斯拉Optimus 绳驱方案 第4张

由韩国阿犹大学的智能机器人研究实验室(IRLAB)设计并开源的ILDA灵巧手图片来源:Iir LAB AJOU

陶一伟:没错。连杆手还有高自由度路线,如韩国论文ILDA,通过更复杂连杆系统,在每个手指根部设计三个主动直线驱动器,实现每指三个自由度。此手较先进,但体积较大,零部件刚性连接缺乏柔性,抓握时不够柔顺,碰撞时易损坏。

泓君:这是连杆驱动优劣势。

陶一伟:第二是直驱方式。直驱灵巧手近一两年才兴起,因电机驱动器小型化使其可行。

优点是自由度可做得很高,每个关节布置一个驱动器,且控制上因关节与电机直接对应而相对容易。缺点主要是成本较高,未来成本或可下降,但微小电机减速比较高,传动透明性较差。内部齿轮等零件精密,实际应用中寿命或抗冲击能力可能成问题。且小型化需高强度金属结构,导致系统重量难以减轻,普遍在一公斤或以上,对机器人末端是较大负载。

泓君:一公斤的手很重,设计平衡成问题。

陶一伟:确实,还有可靠性、易维护性等问题,需观察其发展。

2026人形机器人灵巧手元年:技术路径、算法挑战与未来展望 灵巧手 人形机器人 特斯拉Optimus 绳驱方案 第5张

泓君:它算是业界灵活度较高、能完成更多精细运动和复杂动作的类型。有人推荐聊Sharpa公司,他们采用电机直驱,做得很好。

陶一伟:没错,他们做得非常惊艳。产品完成度高,集成和工业设计优秀,每个关节独立电机使其十分灵活。

泓君:它能做哪些其他灵巧手难以完成的工作?

齐浩之:从展示视频看,他们做了如用相机拍照、双臂系统发扑克牌等较难任务。想象发扑克牌时,牌间间隙小,需精确控制力度才能单张取出,否则易多发或打散牌堆,因此视频相当惊艳。

泓君:一张张发牌对手部精细度要求高。这是直驱方案。另一种是Evan熟悉的拉绳或绳驱方案。

陶一伟:绳驱方案目前主流分两种:双向拉绳和单向拉绳。双向拉绳以Shadow Hand为代表,售价15万美金,具26个高自由度。其方案在每个关节用两根绳连至旋转电机两侧,顺时针转弯曲,逆时针转伸直。

2026人形机器人灵巧手元年:技术路径、算法挑战与未来展望 灵巧手 人形机器人 特斯拉Optimus 绳驱方案 第6张

类似还有苏黎世理工的开源手ORCA Hand,也是优秀的双向拉绳方案。此类手的主要难度在于双向拉绳的张紧问题,因绳材料蠕变会导致松动,降低系统精度和控制难度。

ORCA Hand通过棘轮机构设计,可轻松张紧绳,但使用中仍需不时调整。

2026人形机器人灵巧手元年:技术路径、算法挑战与未来展望 灵巧手 人形机器人 特斯拉Optimus 绳驱方案 第7张

ORCA Hand中的棘轮机构 图片来源:ORCA

另一点是,高自由度灵巧手的绳驱走线设计空间利用率低,需考虑绳的动态变化,因此驱动器常延伸至手腕以下。Shadow Hand、ORCA Hand及特斯拉皆如此。国内源升智能将驱动器集成在手掌内,但手掌体积稍大。

泓君:特斯拉用哪种方案?

陶一伟:特斯拉是单向拉绳方案。单向拉绳好处是对腱绳材料蠕变较不敏感,可通过算法克服。缺点在于伸直运动无主动力,依赖弹簧实现。弹簧力较小,若想优化抓握力,因抓握与弹簧力对抗,强伸展力会浪费抓握力。但人在精细操作中,反向推力也有作用,不过当前阶段主要解决抓握问题。

泓君:尚未考虑张开?

陶一伟:对,张开需求不多。反向推如闭眼在书包中掏物需拨开他物,但这更需整手触觉,是非常难的问题,目前无人考虑。

泓君:业界现向哪些方向收敛?

陶一伟:从我看,硬件上主要朝直驱和单向拉绳收敛,包括特斯拉和我们。直驱也很惊艳,连杆手做高自由度的公司较少。

泓君:Figure AI和Physical Intelligence用何方案?

陶一伟:Figure AI,我看其专利可能是六自由度连杆或其他方案。

2026人形机器人灵巧手元年:技术路径、算法挑战与未来展望 灵巧手 人形机器人 特斯拉Optimus 绳驱方案 第8张

泓君:浩之有何补充?从使用者角度谈谈。

齐浩之:我用过连杆和直驱电机的手,未用过绳驱。

当前“机器人+AI”主要有两种方式:一是遥操作采集数据后训练神经网络完成任务,代表如Aloha和Physical Intelligence;二是在物理模拟器中用强化学习训练网络,再迁移至真实世界,成功案例如四足、双足机器人运动。

灵巧手方面,任何方案目前均有缺陷。但从仿真器训练网络再迁移至真实世界很流行,因此选择灵巧手时会衡量其仿真难易度。比较连杆和直驱手,直驱更易仿真,故在做需高自由度、强化学习才能掌握的灵巧操作时,会选择直驱手。直驱手以往电机较大,近年才小型化,如Sharpa。

Sharpa惊艳的另一原因是,此前类人手大小的机器人手多为连杆或绳驱,不适用于我们的技术路线。Sharpa既有人手机大小,又是电机驱动,非常适合我们研究。

2026人形机器人灵巧手元年:技术路径、算法挑战与未来展望 灵巧手 人形机器人 特斯拉Optimus 绳驱方案 第9张

泓君:有趣的是,若用仿真方式研究灵巧手,需手部与人类手高度相似,自由度、关节数越接近越好。Sharpa手价格据称为5万美元一只?Shadow Hand是15万美元。谁在购买这些昂贵灵巧手?科研机构和大公司研发部门吗?

齐浩之:Sharpa应为5万一只。

泓君:5万一只,10万一对?按对卖吗?

齐浩之:应可成对出售。我认为这些厂商目前不靠硬件盈利,因远未到量产阶段。对他们最重要的是确定构型优化方向,再迭代多轮。价格或有筛选作用,仅面向真正需求强烈的客户,如大厂或政府资助高校。例如,Shadow Hand的主要客户是17、18年的OpenAI,他们当时做灵巧手转魔方,需财力支持。

泓君:有趣。我理解他们现在不靠卖硬件赚钱,而是希望跑通技术路线,吸引开发者搭建生态,让更多人使用和改进方案。

齐浩之:嗯,我这么认为。Evan可从硬件从业者角度谈谈。

陶一伟:从创业者角度,我们公司商业模式略有不同。这些机构走高端学术路线,筛选精品客户。

确实,当前许多演示看似可落地。我们思路是做一款稳定可靠、价格更低、能让应用端客户快速部署的产品。或许自由度、性能、触觉不如高级产品,但我们会推进,以在落地过程中建立生态、获取客户反馈。作为创业公司,这是我们的策略。价格较低的灵巧手不代表无技术含量或无商业价值。

03 特斯拉灵巧手研发故事

泓君:Evan,你约两年多前加入特斯拉,2023年7月,正值Optimus手研发期。请简述其手部演进过程。

陶一伟:好的。我加入时,做手的团队约十几人,属Optimus机械硬件团队。我和另一人主要负责手项目。当时外界不清楚那一代手的方案:它是蜗轮蜗杆绳驱方案,六个主动自由度,十一个全关节,属欠驱动灵巧手。

内部已迭代至第三代。我加入时的主要升级是增加关节编码器以捕捉手部位姿,以及增加触觉。

虽看似仅电路升级,但因新功能加入,沿用第一代构型使装配非常困难。

我第一周的任务是带领生产团队组装新设计的第三代灵巧手。过程十分痛苦,可能从早到晚装不出一只手。从非机械角度看难以理解,每道工序或需一两小时精细操作,这显示硬件构型设计尚不完善。

泓君:特斯拉自行研发,未用其他硬件方案,你赶上自行组装阶段。

陶一伟:没错。马斯克对第三代手不太满意,因外形和产能更像实验室样机。

泓君:他想要什么?对外形还是技术方案不满?

陶一伟:马斯克关注外形和产能。外形不满意,且当时产能仅一天一两台,太差。

泓君:他质疑整个设计环节,从外形到方案是否易落地?

陶一伟:是的。我加入后首个任务便是重新设计手部,与工业设计紧密合作,从里外调整架构,包括许多独创设计细节。我们做出内部称3.1代的手,对外则是目前所有装机及大规模生产所用的版本。

2026人形机器人灵巧手元年:技术路径、算法挑战与未来展望 灵巧手 人形机器人 特斯拉Optimus 绳驱方案 第10张

泓君:改进后,现装一只手需多久?

陶一伟:离开时,我记得一周需生产一百多台,由技术工人在产线组装。工程师需先走通流程再交予工人。

泓君:马斯克对灵巧手有何想法?

陶一伟:马斯克坚信第一性原理,指导也多源于此,包括仿生设计。

泓君:仿生方面,特斯拉内部做过人体分析,研究人手如何感知力和工作。

陶一伟:没错。我们查阅许多生物解剖学术论文,学习人肌腱运动和发力方式。还有个小故事:一位伙伴的母亲是手部外科医生,我们有机会现场观察真人手部结构,经历很有趣。

泓君:从生物学论文中获得的最大启发是什么?特斯拉整体从人体工作中学到什么?

陶一伟:特斯拉从上一代到即将发布的新一代手,最大变化是将驱动器从手掌移至上臂,这借鉴了部分人体设计,因人手指的驱动肌肉位于上臂。

泓君:不在手掌,在上臂。

陶一伟:实际两者皆有,这也是我们方案与特斯拉的差异点。上臂控制更多是大抓握力肌肉,因肌肉较大;手掌内肌肉控制更灵巧的精细操作。

齐浩之:我有个好奇问题:装配绳驱灵巧手耗时多且需专业人员,这是否使其产能较直驱灵巧手有较大差距?

陶一伟:是的。直驱灵巧手更像传统机械结构,可通过成熟工艺实现易装配,如拧螺丝或焊接,既能保证精度又高效。

绳驱因腱绳方案,传统整合较少,这方面需行业推进,包括腱绳两端固定连接的生产速度与精度保证,仍在探索中。但这终是工程问题,非基础科学难题,随着行业推进,相信能克服。

04 揭秘灵巧手“数据金字塔”

泓君:聊了硬件,接下来谈算法层面,浩之你的研究方向。

齐浩之:过去几个月,我主要研究如何从人类视频中学习灵巧操作技能。

当前主流是遥操作方式,即操作员穿戴动作捕捉设备,将动作映射至机器人手。但此法有缺陷:每个操作员需适配一台机器人,若想将数据规模推广至语言数据级别,非常困难,因机器人及产能不足。

另一路径是依据现有数据,如人类录制做饭、家务等视频中的手部动作,让机器人观看后自学技能。

泓君:目前表现如何?

齐浩之:仍处研究阶段。若追求最佳效果,直接用遥操作采集机器人数据最好。但因从人类视频学习的样本数未达足够规模,长远看此路径或取代遥操作。

泓君:有趣的是,1X曾发布机器人Neo,可进家庭做基础家务,但可怕的是以出卖隐私方式工作,因每个机器人后有遥操人员控制。我理解这也是他们收集数据的方式。

2026人形机器人灵巧手元年:技术路径、算法挑战与未来展望 灵巧手 人形机器人 特斯拉Optimus 绳驱方案 第11张

Neo演示广告片 图片来源:1X

齐浩之:对。目前尚无公司能将机器人卖入用户家庭并完成任务。1X类似特斯拉自动驾驶策略:先卖车给用户,用户驾驶时采集数据。但人形机器人用户无法操作,故由自家操作员控制。这涉及隐私、道德问题,需更多讨论。

泓君:你2021-2022年开始研究时,GPT3已出,但端到端训练机器人及灵巧手尚非主流。那时机器人研究主要方向是什么?

齐浩之:那时研究主要让机器人在有限泛化要求下完成特定任务。因硬件不多,做灵巧手科研的课题组少,此问题本身关注度低。特斯拉宣布人形机器人后,行业爆发,大家才渐入此领域。

近些年,越来越多人尝试用GPT式端到端模型,在简单机器人本体上初步验证,如Physical Intelligence用大规模遥操作数据展示机器人强能力。但对灵巧手,更难之处在于数据采集比其他机器人更难。

2026人形机器人灵巧手元年:技术路径、算法挑战与未来展望 灵巧手 人形机器人 特斯拉Optimus 绳驱方案 第12张

泓君:手部数据?

齐浩之:对。即使操作员持续采集,距GPT或Physical Intelligence等级的数据仍有距离。

泓君:上次与研究员聊,π0.5据称有1万多小时数据,是机器人行业最大真实数据集,属高质量数据。

齐浩之:对。许多公司采集的数据远超1万小时,但关键是何类数据对训练机器人有用。

泓君:谈谈你的研究,你用视觉和触觉做手内旋转或多指复杂操作学习。你的工作证明触觉带来的提升,请解释为何机器人需触觉?加入后多了哪些能力?

齐浩之:机器人有触觉有几方面好处。我曾做有趣实验:在美国可购麻醉凝胶,牙医用于牙龈手术,我将凝胶涂手上暂时麻痹感觉,然后尝试操作。许多任务仍可完成,但感觉更慢,因需用眼仔细看手是否接触物体,如拿铅笔或板擦。

因此,触觉能在手指与物体交互时提供更精确信息。想象人形机器人操作时,手拿物体,视觉难见接触点因手遮挡,此时触觉更有效。

泓君:触觉即加传感器?

齐浩之:对。另一点是控制力的大小。回开可乐例子,一手需足够力控制可乐罐,但不能捏爆;另一手需拉拉环,角度和力度需精确,否则易拉断环未开。感知操作时的力非常重要,最佳方式是通过触觉传感器。

泓君:触觉传感器不仅能感知触摸,还能感知力?如何实现?

齐浩之:现有多种技术方案。例如,在指尖放置压感传感器,当外界施压时电路产生不同电流,据电流大小判断压力。

另如视触觉传感器:在手内部加相机,外有材料在接触时形变,相机捕捉形变后通过视觉处理器或神经网络推断外力方向和大小,获取触觉信号。

陶一伟:我稍补充触觉。齐老师所言主要是手指或手表面的触觉传感器,但从客户交流看,另一重要力反馈信息来自驱动器的电流大小,即驱动器用多大力拉动手指。这也类似人类感知系统:人抓握物体时,皮肤表面有触觉信号,另有肌肉收缩感知能力。

泓君:有趣的是,我们将机器设计得如此复杂,或因对人体自身了解不足。

陶一伟:没错。

齐浩之:Evan补充得很好,绳驱技术路线的一大优势是易实现力控,因可通过收缩力大小达成。

泓君:像你这样的研究科学家,一天能收集多少遥操的力数据?

齐浩之:这取决于任务类型。若简单抓取放置,可收集很多,只要不累便能以高成功率持续收集。

但更难任务,如遥操作机器人用剪刀剪窗花或折纸,即使收集一条数据都很难。这也是算法需解决的问题:如何用算法突破处理难采集数据的任务。

泓君:当前主流方案是跟随视频学习?

齐浩之:对。现有不同探索路径:视频是其一;模拟器为另一路径;还有如近期Sunday和Generalist,用特定设备采集数据后转化为机器人可用数据。

2026人形机器人灵巧手元年:技术路径、算法挑战与未来展望 灵巧手 人形机器人 特斯拉Optimus 绳驱方案 第13张

泓君:从数据收集方式训练模型看,遥操数据量小但质量高,视频数据可能缺乏力信息但量多,哪种效果好?业界有共识吗?

齐浩之:对公司而言,多用遥操作,因追求绝对效果。用视频数据多在研究阶段,包括特斯拉最近发布从人类视频学习的操作视频,但绝对能力仍不如遥操作。之所以研究视频,是相信未来几个月或更久,当视频量积累到一定程度,能力可超越遥操作,但非此刻。

泓君:或许追求不同:精确性需遥操数据,泛化性视频也重要,我总结对吗?

齐浩之:对。不同数据有不同特征,有的能快速提升能力但难采集,有的易采集但如何最佳利用尚无定论。

业界研究时有金字塔模型:遥操作在塔尖,量少但有用;视频数据在底座,量多但非最提升机器人效果的数据。

中间部分有各种数据,如机器数据或仿真数据。

泓君:我记得在活动上与DeepMind、OpenAI科学家讨论,问他们偏好方式。当时Genie3世界模型刚出,大家分成两派:一派认为对机器人行业帮助不大,不重要;另一派认为很重要,可助训练机器人。

齐浩之:从研究角度,新基础模型肯定有帮助,但需找到最佳利用方式。说它完全无用有失偏颇,但说仅需训练大视频生成模型便能解决机器人问题也不现实,因当前视频生成尚未完全解决物理真实性。

虽每年见其在物理层面进步,但我爱举一例:若靠学习视频模型解决预测物理世界问题,那意味着可训练语言模型消除幻觉。因它学到了真实数据的物理规则,而非简单过拟合数据。

语言模型尚未解决幻觉,故视频模型学到真实物理规律任重道远。我们不能完全依赖视频模型训练机器人,但它可提供良好初始化或其他信号,均有帮助。

泓君:有趣。你们认为实现手部灵巧动作如开可乐有多难?到达GPT3时刻了吗?

陶一伟:若机器人真能做到开可乐,或是很好基准测试,达GPT时刻,因它是灵巧性综合能力的考量。

齐浩之:我想说远些,例如20年前本田ASIMO已能跑步、上下楼梯。许多人质疑为何20多年后人形机器人仅达当时水平?这涉及多易达此水平。现有算法易在跑步基础上稍改实现跳舞,这与20年前需高尖团队迭代数月或数年完全不同。

若未来有算法框架确定后,能以短时间让机器人开可乐、开门、拧螺丝等多样化任务,那确是GPT时刻。

泓君:我们离此刻多远?

齐浩之:预测易被打脸,我觉或需3-5年。

泓君:比我想象快。

陶一伟:从硬件和产品角度,今年内或有产品能满足此能力。

泓君:指任何场景下开可乐,机器人可自主旋转、随意放置,非遥控。

陶一伟:可以这么说。我认为硬件很快能达此。硬件为行业提供基石,更多上限天花板靠软件和模型能力提升释放。

齐浩之:据我观察,近两年灵巧手实现井喷式飞跃,未来光明。

一方面,人形机器人火爆后,更多厂商能造复杂硬件,如灵巧手和人形机器人。

其二,简单本体如轮式或平行夹爪的科研问题渐趋同质化,无新爆点。大家正探索在更复杂系统如灵巧手和人形机器人上迭代算法。

这两点共同促进行业发展。

泓君:好的,非常期待。今天聊得精彩,谢谢两位。