表面看似简单,实则力量深藏。
Physical Intelligence推出的机器人基础模型π0.6,一经发布便席卷全网,其强大能力立即展现:
机器人能够持续一整天制作意式浓缩咖啡,数小时不间断折叠各种衣物,并能精确组装工厂所需的包装纸箱。
在π0.6的支持下,这些任务的成功率均超过90%。
然而,深入研读论文后会发现,相较于连续13小时制作咖啡,π*0.6的真正突破在于引入了一种更直观的学习方法——Recap:
这完全改变了以往机器人仅模仿“真值”的学习模式,使机器人能够从自身错误中进步。
就连网友也惊叹道:
从错误中学习,这甚至比人类还强?
π*0.6继承了Physical Intelligence一贯的VLA(视觉-语言-动作模型)路线,是自今年四月发布π0.5以来最新的VLA模型。
总体而言,π*0.6的核心贡献是提出了一种通用训练方法——基于优势条件策略的经验与纠偏强化学习(RL with Experience & Corrections via Advantage-conditioned Policies,RECAP)。
RECAP使VLA模型能够利用奖励反馈和人类干预进行训练,主要包括三个阶段:
接下来,我们详细探讨。
首先,为何RECAP选择价值函数而非标准策略梯度,这里有一个关键巧思。
一方面,真实机器人数据极为异构:包括人类示范、专家干预以及机器人在不同策略下的执行轨迹。标准策略梯度方法需要同策略的新鲜数据,难以有效吸收这些历史混合数据,因此天生不适合具身场景。
另一方面,VLA模型基于流匹配生成连续动作,这类模型没有显式的log π(a|s),导致无法像传统策略那样直接计算梯度。
换言之,PPO、REINFORCE等算法在这种模型结构上无法适用。
因此,RECAP未采用传统RL路径,而是运用了一个巧妙的“优势条件化”策略:
模型仍以监督学习方式训练,但额外输入当前动作的优势值(advantage)。优势越高,表示“这个动作更值得模仿”。
于是整个流程变为:
价值函数负责评估 → 优势条件化负责表达 → VLA用监督学习吸收所有数据
换句话说,RECAP利用价值函数判断动作质量,再通过优势条件化将原本需RL求解的策略更新,转化为大模型擅长的监督学习问题。
训练价值函数与策略提取:
为使模型从异构数据中学习,首先需训练一个能识别“好坏”的价值函数。无论数据来源(演示或自主尝试),处理流程如下:
有了优势信号,我们便能实现高效的策略提取。这种方法完美满足前述离线RL需求:
通过这种设计,RECAP在不依赖昂贵在线PPO更新的情况下,利用混合质量离线数据实现了机器人自我进化。
在线阶段:专家纠错 + 自主经验
在机器人自主执行阶段,RECAP通过两类数据持续优化策略:
模型架构与性能
π*0.6基于π0.6构建,而π0.6是π0.5的升级版。
π0.6的骨干网络从Pi0、π0.5的Gemma(2.6B)扩展至Gemma3(4B),动作专家参数量也提升至860M。
在模型架构上,π0.6延续了π0和π0.5架构,通过流匹配(flow matching)和离散动作token输出生成动作片段。
从实验看,研究团队在三个高难度现实任务中评估模型:折叠多样化衣物、组装纸箱(工厂环境)和制作浓缩咖啡。
在最难任务(如折叠多样化衣物和制作咖啡)中,RECAP将任务吞吐量(每小时成功次数)提高了一倍以上,相较于仅监督微调(SFT)的模型,RECAP将任务失败率降低约2倍。
同时,模型表现出极高稳定性,例如连续13小时制作咖啡、连续2小时折叠衣物而无需人工重置。
正如开头所述,Recap最引人注目的地方在于它使机器人能够从错误经验中学习。
常言道“失败是成功之母”,但在传统模仿学习及更广泛的监督学习中,逼近真值或最优解通常被视为最直接有效的策略。
这种方法在大规模语言模型(LLM)等机器学习系统上表现优异,数学上也简洁优雅。
然而,对现实世界机器人而言,仅知如何正确执行而不知如何从错误中恢复,将成为关键瓶颈。
在LLM等生成静态输出的AI系统中,监督学习假设数据独立同分布(i.i.d.),预测输出不影响后续输入,因此偶尔偏差不会导致严重问题。
但对需持续与外界交互的系统,如机器人,情况则迥异。
模仿学习中模型的每个动作都会影响未来状态,一旦出现微小错误,就可能进入训练数据未涵盖的新状态,从而引发滚雪球式误差。这些错误累积后,任务可能完全失败。
因此,要让机器人“每次成功”,仅复制示范数据不足够。
解决之道在于:让视觉-语言-动作(VLA)模型能从自身实际错误中学习,犹如人类通过练习不断纠正失误。
问题在于,这些经验如何标注?若简单让模型复制过去行为,它只会学会重复错误。关键是如何从“坏数据”中提取有效训练信号。
Recap通过指导中辅以纠正,练习中辅以强化实现这一点:
教练式纠偏(corrections)当机器人犯错时,专家通过遥操作介入,示范如何恢复、如何更好完成任务。
不同于传统示范教学,这里非教“该如何做”,而是教“当出错时如何修正”。
这种针对性纠偏弥补了传统模仿数据不足,是防止错误累积关键。
强化学习(reinforcement learning)
然而,仅靠人类纠偏远远不够,机器人需自主学习。
机器人需根据回合总体结果自行判断行为好坏,并迭代学习执行好行为,避免坏行为。
由此,引出基于对错奖励的强化学习。
如前文所述,为实现强化学习,核心在于解决信用分配(credit assignment)问题。
例如,需知机器人执行的哪些动作导致好结果,哪些导致坏结果。
此处,Recap通过训练价值函数(value function)应对这一挑战,它能预测当前状态相对于其他状态的优劣。
△图源:Reinforcement learning: An introduction
例如,在经典格子世界中,智能体通过多次尝试更新每个状态价值:落在好格子上,价值提高;掉进坏格子里,价值降低。
随着价值评估逐渐准确,智能体自然倾向选择通向高价值状态的动作。
同样逻辑应用于机器人:价值函数变化为模型提供简单而强大判断信号。
例如,在折叠衣服任务中(左图),红色区域表示机器人突然拉起衣服的错误动作,对应价值下降;绿色区域表示机器人正确完成折叠时,价值上升。
可以说,价值函数帮助机器人识别“关键步骤”与“错误来源”,使其真正具备在复杂真实环境中从经验变强的能力。
当价值函数训练好后,下一步是“策略抽取”:让策略(即VLA模型)以价值变化为条件训练。
所有数据——包括成功和未成功——均保留,同时告知模型哪些动作有效、哪些应避免。
这种优势条件化(advantage-conditioned)训练使模型在保留全部经验前提下,从失败中学习,从而表现超越单纯示范数据水平。
综上,Recap不仅让机器人学会执行任务,更让机器人学会自我纠正和优化策略,为后续复杂任务鲁棒性和效率提升提供可扩展解决方案。
同时,从好数据(示范)少,坏数据(错误经验)多视角看,π*0.6 的突破可能更具深远意义 ——
它证明机器人能从真实执行收集的 “不完美经验” 中,提炼高效学习信号,这也为后续机器人研究开辟新思路,提供极具价值探索方向。
参考链接:
[1]https://www.pi.website/download/pistar06.pdf
[2]https://www.pi.website/blog/pistar06
[3]https://www.physicalintelligence.company/download/pi05.pdf
[4]https://x.com/svlevine/status/1990574916622856290
本文由主机测评网于2026-01-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260120665.html