表面上看似乎轻描淡写,但实际上蕴含着深厚的技术功底。
近期,Physical Intelligence公司推出的机器人基础模型π0.6在网络上引发广泛关注,一经亮相便展示了其强大的能力:
该模型能够驱动机器人连续一整天制作意式浓缩咖啡,持续数小时折叠各种类型的衣物,并且精准组装工业环境中所需的包装纸箱。
得益于π*0.6的强大性能,这些复杂任务的成功率均超过了90%。
然而,深入研读其技术论文可以发现,相较于能够连续制作13小时咖啡这一表象,π*0.6的真正革命性突破在于它引入了一种更符合直觉的学习方法——Recap:
这种方法彻底改变了传统机器人仅能通过模仿学习逼近“真值”的模式,使机器人具备了从自身错误中学习和成长的能力。
这一进展引发了网友的热议,有人感叹:
能够从错误中学习,这难道不比人类更厉害吗?
π0.6沿袭了Physical Intelligence公司一贯坚持的VLA(视觉-语言-动作模型)技术路线,是自今年四月份推出π0.5之后的最新迭代版本。
总体而言,π*0.6的核心创新在于提出了一种通用的训练框架——基于优势条件策略的经验与纠偏强化学习(简称RECAP)。
RECAP方法使得VLA模型能够整合奖励反馈和人类干预进行训练,主要包含以下三个阶段:
下面,我们将深入剖析其技术细节。
首先,为什么RECAP会选择价值函数而非标准的策略梯度方法?这其中蕴含着一个巧妙的设计思路。
一方面,真实世界中的机器人数据具有高度的异构性:包含了人类示范、专家干预,以及机器人在不同策略下产生的执行轨迹。标准的策略梯度方法依赖于on-policy的实时数据,很难有效吸收这些历史混合数据,因此天然不适用于具身智能场景。
另一方面,VLA模型采用Flow Matching生成连续动作,这类模型缺乏显式的log π(a|s),因此无法像传统策略那样直接对动作概率求梯度。
换言之,像PPO、REINFORCE这类经典强化学习算法在这种模型架构上难以发挥作用。
基于此,RECAP没有沿用传统RL的路径,而是创新性地引入了“优势条件化”策略:
模型依然采用监督学习的方式进行训练,但额外增加了一个输入通道,告知模型当前动作的优势值(advantage)。优势值越高,意味着该动作越值得被模仿学习。
于是,整个学习流程转变为:
价值函数负责评估动作质量 → 优势条件化负责传达评估结果 → VLA模型通过监督学习吸收所有数据中的有效信息
简言之,RECAP利用价值函数判断动作的优劣,然后通过优势条件化将原本需要强化学习求解的策略更新问题,转化为大模型所擅长的监督学习任务。
价值函数训练与策略提取:
为了使模型能够从异构数据中学习,首先需要训练一个能够区分“好坏”的价值函数。无论数据来源是演示还是自主尝试,其处理流程如下:
借助优势信号,我们可以高效地实现策略提取。这种方法完美契合了前文提到的离线RL需求:
通过这种设计,RECAP成功地在不依赖昂贵的在线PPO更新的前提下,利用混合质量的离线数据实现了机器人的自我进化。
在线阶段:专家纠错与自主经验相结合
在机器人的自主执行阶段,RECAP通过两类数据不断优化策略:
模型架构与性能表现
π*0.6基于π0.6构建,而π0.6则是对π0.5的进一步升级。
π0.6的骨干网络从Pi0、π0.5所使用的Gemma(2.6B参数)升级为Gemma3(4B参数),同时Action Expert的参数量也提升至860M。
在模型架构上,π0.6延续了π0和π0.5的设计,采用流匹配(flow matching)和离散动作token输出来生成动作片段。
实验环节中,研究团队在三个高难度的真实世界任务上对模型进行了评估:折叠多样化的衣物、在工厂环境中组装纸箱,以及制作浓缩咖啡。
在最困难的任务(如折叠多样化衣物和制作咖啡)中,RECAP将任务的吞吐量(即每小时成功次数)提升了一倍以上,与仅进行监督微调(SFT)的模型相比,RECAP使任务失败率降低了约2倍。
此外,模型展现出极高的运行稳定性,例如能够连续13小时制作咖啡、连续2小时折叠衣物而无需人工干预重置。
正如前文所述,Recap最具启发性的亮点在于它使机器人能够从错误经验中学习。
常言道“失败乃成功之母”,然而在传统的模仿学习乃至更广泛的监督学习范式中,逼近真值或最优解通常被视为最直接、最有效的策略。
这种方法在大规模语言模型(LLM)和其他机器学习系统中确实表现出色,且在数学上简洁优雅。
然而,对于现实世界中的机器人而言,仅仅知道如何正确执行任务,却不知道如何从错误中恢复,这将成为关键障碍。
在LLM等生成静态输出的AI系统中,监督学习假设数据是独立同分布的(i.i.d.),预测输出不会影响后续输入,因此偶尔的偏差不会引发致命问题。
但对于需要持续与外界交互的系统,例如机器人,情况则截然不同。
在模仿学习中,模型的每一个动作都会影响未来状态,一旦出现微小错误,就可能进入训练数据未曾覆盖的新状态,从而引发滚雪球式误差。这些误差不断累积,最终可能导致任务彻底失败。
因此,要让机器人实现“每次都成功”,仅仅复制示范数据是远远不够的。
解决这一问题的关键在于:让视觉-语言-动作(VLA)模型能够从自身实际犯过的错误中学习,如同人类通过反复练习不断纠正失误一样。
问题在于,这些经历应该如何标注?如果简单让模型复制过去的行为,它只会学会重复错误。关键在于如何从“坏数据”中提炼出有效的训练信号。
Recap通过在指导中辅以纠正,在练习中辅以强化来实现这一目标:
教练式纠偏(corrections):当机器人犯错时,专家通过远程操作介入,示范如何恢复错误、如何更优地完成任务。
与传统示范教学不同,这里不是教“该怎么做”,而是教“当事情出错时该如何修正”。
这种针对性纠偏弥补了传统模仿数据的不足,是防止错误累积的关键环节。
强化学习(reinforcement learning)
然而,仅仅依赖人类提供纠正措施是远远不够的,机器人需要具备自主学习能力。
机器人需要根据一个回合的总体结果自行判断行为的优劣,并通过迭代学习执行有益行为,同时避免有害行为。
由此,引出了基于对错奖励的强化学习方法。
如前所述,实现强化学习的核心在于解决信用分配(credit assignment)问题。
即需要判断机器人执行的哪些动作导致了好的结果,哪些动作导致了坏的结果。
在此,Recap通过训练一个价值函数(value function)来应对这一挑战,该函数能够预测当前状态相对于其他状态的优劣。
△图片来源:Reinforcement learning: An introduction
举例而言,在经典的格子世界问题中,智能体通过一次次尝试更新每个状态的价值:落在好格子上,价值提高;掉进坏格子里,价值降低。
随着价值评估逐渐准确,智能体自然会倾向于选择那些能通向高价值状态的动作。
同样的逻辑适用于机器人:价值函数的变化为模型提供了一个简单而强大的判断信号。
例如,在折叠衣服任务中(左图),红色区域表示机器人突然将衣服拉起的错误动作,对应价值下降;而绿色区域表示机器人正确完成折叠时的动作,对应价值上升。
可以说,价值函数帮助机器人识别“关键步骤”与“错误来源”,使其真正具备在复杂真实环境中从经验中不断变强的能力。
在训练好价值函数后,下一步是“策略抽取”:让策略(即VLA模型)以价值变化为条件进行训练。
所有数据——无论成功与否——都被保留,同时向模型明确哪些动作是有效的、哪些动作应避免。
这种优势条件化(advantage-conditioned)训练使模型能够在保留全部经验的前提下,从失败中学习,从而超越单纯依赖示范数据的表现。
综上,Recap不仅让机器人学会了执行任务,更重要的是,它让机器人掌握了自我纠正和优化策略的能力,为后续复杂任务的鲁棒性和效率提升提供了可扩展的解决方案。
与此同时,如果从好数据(示范)少,坏数据(错误经验)多的视角来看,π*0.6的突破可能更具深远意义——
它证明了机器人能够从真实执行中收集的“不完美经验”里,提炼出高效的学习信号,这也为后续机器人研究开辟了全新思路,提供了极具价值的探索方向。
参考链接:
[1]https://www.pi.website/download/pistar06.pdf
[2]https://www.pi.website/blog/pistar06
[3]https://www.physicalintelligence.company/download/pi05.pdf
[4]https://x.com/svlevine/status/1990574916622856290
本文由主机测评网于2026-02-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260225682.html