当前位置：首页 > 科技资讯 > 正文

π0.6机器人模型革新：RECAP方法让机器从错误中高效学习

主机测评网
科技资讯
2026-01-26
482

表面看似简单，实则力量深藏。

Physical Intelligence推出的机器人基础模型π0.6，一经发布便席卷全网，其强大能力立即展现：

机器人能够持续一整天制作意式浓缩咖啡，数小时不间断折叠各种衣物，并能精确组装工厂所需的包装纸箱。

在π0.6的支持下，这些任务的成功率均超过90%。

π0.6机器人模型革新：RECAP方法让机器从错误中高效学习 π0.6 RECAP 机器人学习 VLA模型第1张

然而，深入研读论文后会发现，相较于连续13小时制作咖啡，π*0.6的真正突破在于引入了一种更直观的学习方法——Recap：

指导：通过人类示范教授基础动作
辅导：通过纠错指导修正错误
练习：从自主经验中持续优化，不断增强

这完全改变了以往机器人仅模仿“真值”的学习模式，使机器人能够从自身错误中进步。

就连网友也惊叹道：

从错误中学习，这甚至比人类还强？

π0.6机器人模型革新：RECAP方法让机器从错误中高效学习 π0.6 RECAP 机器人学习 VLA模型第2张

**最强VLA模型——π*0.6**

π*0.6继承了Physical Intelligence一贯的VLA（视觉-语言-动作模型）路线，是自今年四月发布π0.5以来最新的VLA模型。

π0.6机器人模型革新：RECAP方法让机器从错误中高效学习 π0.6 RECAP 机器人学习 VLA模型第3张

总体而言，π*0.6的核心贡献是提出了一种通用训练方法——基于优势条件策略的经验与纠偏强化学习（RL with Experience & Corrections via Advantage-conditioned Policies，RECAP）。

π0.6机器人模型革新：RECAP方法让机器从错误中高效学习 π0.6 RECAP 机器人学习 VLA模型第4张

RECAP使VLA模型能够利用奖励反馈和人类干预进行训练，主要包括三个阶段：

离线RL：基于多机器人、多任务的示范数据（包括失败数据）训练价值函数和策略
微调：通过人类示范将π*0.6适配到具体任务（咖啡制作/衣物折叠/纸箱组装）
在线阶段：机器人自主执行任务，获得稀疏奖励，并结合专家在线纠偏，更新价值函数，再通过优势条件化改进策略

π0.6机器人模型革新：RECAP方法让机器从错误中高效学习 π0.6 RECAP 机器人学习 VLA模型第5张

接下来，我们详细探讨。

首先，为何RECAP选择价值函数而非标准策略梯度，这里有一个关键巧思。

一方面，真实机器人数据极为异构：包括人类示范、专家干预以及机器人在不同策略下的执行轨迹。标准策略梯度方法需要同策略的新鲜数据，难以有效吸收这些历史混合数据，因此天生不适合具身场景。

另一方面，VLA模型基于流匹配生成连续动作，这类模型没有显式的log π(a|s)，导致无法像传统策略那样直接计算梯度。

换言之，PPO、REINFORCE等算法在这种模型结构上无法适用。

因此，RECAP未采用传统RL路径，而是运用了一个巧妙的“优势条件化”策略：

模型仍以监督学习方式训练，但额外输入当前动作的优势值（advantage）。优势越高，表示“这个动作更值得模仿”。

于是整个流程变为：

价值函数负责评估 → 优势条件化负责表达 → VLA用监督学习吸收所有数据

换句话说，RECAP利用价值函数判断动作质量，再通过优势条件化将原本需RL求解的策略更新，转化为大模型擅长的监督学习问题。

π0.6机器人模型革新：RECAP方法让机器从错误中高效学习 π0.6 RECAP 机器人学习 VLA模型第6张

训练价值函数与策略提取：

为使模型从异构数据中学习，首先需训练一个能识别“好坏”的价值函数。无论数据来源（演示或自主尝试），处理流程如下：

计算经验回报：对每条轨迹，从当前时间步到结束计算累计回报，并归一化、离散化为201个区间，作为价值函数的训练目标。
训练分布式价值函数：用多任务分布式价值函数预测离散价值分布，通过最小化交叉熵损失训练，再提取连续价值函数，获得每个状态-动作的实际价值。
计算优势（advantage）：用动作的实际回报减去价值函数预测，得到优势值，并二值化为高/低优势指标，作为策略训练的额外输入，引导模型选择更优动作。

有了优势信号，我们便能实现高效的策略提取。这种方法完美满足前述离线RL需求：

充分利用多样化的离策略数据：包括最初的人类示范、专家干预，以及机器人自主执行的轨迹（既有最新策略的，也有早期策略的）。
可扩展性：方法需能应用于大型VLA模型，包括使用流匹配（flow matching）或扩散（diffusion）生成动作的模型。
同时利用优劣数据：既要有效利用近似最优的动作，也要利用次优动作的数据，这对通过自主经验提升策略尤为重要。

通过这种设计，RECAP在不依赖昂贵在线PPO更新的情况下，利用混合质量离线数据实现了机器人自我进化。

在线阶段：专家纠错 + 自主经验

在机器人自主执行阶段，RECAP通过两类数据持续优化策略：

专家纠错：专家远程干预纠正严重错误（如纸箱折叠顺序错误），每次纠错动作标记为“正向优势”，训练模型学习如何恢复错误。
自主经验：模型自主完成的轨迹，无论成功与否，均纳入训练数据。通过价值函数和优势指标，自动筛选有效信号，优化精细动作。

模型架构与性能

π*0.6基于π0.6构建，而π0.6是π0.5的升级版。

π0.6机器人模型革新：RECAP方法让机器从错误中高效学习 π0.6 RECAP 机器人学习 VLA模型第7张

π0.6的骨干网络从Pi0、π0.5的Gemma(2.6B)扩展至Gemma3(4B)，动作专家参数量也提升至860M。

在模型架构上，π0.6延续了π0和π0.5架构，通过流匹配（flow matching）和离散动作token输出生成动作片段。

从实验看，研究团队在三个高难度现实任务中评估模型：折叠多样化衣物、组装纸箱（工厂环境）和制作浓缩咖啡。

在最难任务（如折叠多样化衣物和制作咖啡）中，RECAP将任务吞吐量（每小时成功次数）提高了一倍以上，相较于仅监督微调（SFT）的模型，RECAP将任务失败率降低约2倍。

π0.6机器人模型革新：RECAP方法让机器从错误中高效学习 π0.6 RECAP 机器人学习 VLA模型第8张

同时，模型表现出极高稳定性，例如连续13小时制作咖啡、连续2小时折叠衣物而无需人工重置。

从失败经验中学习

正如开头所述，Recap最引人注目的地方在于它使机器人能够从错误经验中学习。

常言道“失败是成功之母”，但在传统模仿学习及更广泛的监督学习中，逼近真值或最优解通常被视为最直接有效的策略。

这种方法在大规模语言模型（LLM）等机器学习系统上表现优异，数学上也简洁优雅。

然而，对现实世界机器人而言，仅知如何正确执行而不知如何从错误中恢复，将成为关键瓶颈。

在LLM等生成静态输出的AI系统中，监督学习假设数据独立同分布（i.i.d.），预测输出不影响后续输入，因此偶尔偏差不会导致严重问题。

π0.6机器人模型革新：RECAP方法让机器从错误中高效学习 π0.6 RECAP 机器人学习 VLA模型第9张

但对需持续与外界交互的系统，如机器人，情况则迥异。

模仿学习中模型的每个动作都会影响未来状态，一旦出现微小错误，就可能进入训练数据未涵盖的新状态，从而引发滚雪球式误差。这些错误累积后，任务可能完全失败。

因此，要让机器人“每次成功”，仅复制示范数据不足够。

解决之道在于：让视觉-语言-动作（VLA）模型能从自身实际错误中学习，犹如人类通过练习不断纠正失误。

问题在于，这些经验如何标注？若简单让模型复制过去行为，它只会学会重复错误。关键是如何从“坏数据”中提取有效训练信号。

Recap通过指导中辅以纠正，练习中辅以强化实现这一点：

教练式纠偏（corrections）当机器人犯错时，专家通过遥操作介入，示范如何恢复、如何更好完成任务。

不同于传统示范教学，这里非教“该如何做”，而是教“当出错时如何修正”。

这种针对性纠偏弥补了传统模仿数据不足，是防止错误累积关键。

强化学习（reinforcement learning）

然而，仅靠人类纠偏远远不够，机器人需自主学习。

机器人需根据回合总体结果自行判断行为好坏，并迭代学习执行好行为，避免坏行为。

由此，引出基于对错奖励的强化学习。

如前文所述，为实现强化学习，核心在于解决信用分配（credit assignment）问题。

例如，需知机器人执行的哪些动作导致好结果，哪些导致坏结果。

此处，Recap通过训练价值函数（value function）应对这一挑战，它能预测当前状态相对于其他状态的优劣。

π0.6机器人模型革新：RECAP方法让机器从错误中高效学习 π0.6 RECAP 机器人学习 VLA模型第10张

△图源：Reinforcement learning: An introduction

例如，在经典格子世界中，智能体通过多次尝试更新每个状态价值：落在好格子上，价值提高；掉进坏格子里，价值降低。

随着价值评估逐渐准确，智能体自然倾向选择通向高价值状态的动作。

同样逻辑应用于机器人：价值函数变化为模型提供简单而强大判断信号。

让价值上升的动作：代表机器人朝任务成功更近一步，应被强化；
让价值下降的动作：意味偏离目标，需被抑制或修正。

例如，在折叠衣服任务中（左图），红色区域表示机器人突然拉起衣服的错误动作，对应价值下降；绿色区域表示机器人正确完成折叠时，价值上升。

π0.6机器人模型革新：RECAP方法让机器从错误中高效学习 π0.6 RECAP 机器人学习 VLA模型第11张

可以说，价值函数帮助机器人识别“关键步骤”与“错误来源”，使其真正具备在复杂真实环境中从经验变强的能力。

当价值函数训练好后，下一步是“策略抽取”：让策略（即VLA模型）以价值变化为条件训练。

所有数据——包括成功和未成功——均保留，同时告知模型哪些动作有效、哪些应避免。

这种优势条件化（advantage-conditioned）训练使模型在保留全部经验前提下，从失败中学习，从而表现超越单纯示范数据水平。

综上，Recap不仅让机器人学会执行任务，更让机器人学会自我纠正和优化策略，为后续复杂任务鲁棒性和效率提升提供可扩展解决方案。

同时，从好数据（示范）少，坏数据（错误经验）多视角看，π*0.6 的突破可能更具深远意义 ——

它证明机器人能从真实执行收集的 “不完美经验” 中，提炼高效学习信号，这也为后续机器人研究开辟新思路，提供极具价值探索方向。

参考链接：

[1]https://www.pi.website/download/pistar06.pdf

[2]https://www.pi.website/blog/pistar06

[3]https://www.physicalintelligence.company/download/pi05.pdf

[4]https://x.com/svlevine/status/1990574916622856290

云服务器免费vps 免费服务器

本文由主机测评网于2026-01-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260120665.html

π0.6机器人模型革新：RECAP方法让机器从错误中高效学习

**最强VLA模型——π*0.6**

从失败经验中学习

系统设计终极实践

iPhone同步全攻略：5种方法轻松连接Mac/MacBook（小白必看教程）

π0.6机器人模型革新：RECAP方法让机器从错误中高效学习

最强VLA模型——π*0.6

从失败经验中学习

系统设计终极实践

iPhone同步全攻略：5种方法轻松连接Mac/MacBook（小白必看教程）

相关文章

**最强VLA模型——π*0.6**