当前位置：首页 > 科技资讯 > 正文

Physical Intelligence π0.6机器人模型：通过Recap方法从错误中学习实现突破

主机测评网
科技资讯
2026-02-18
806

表面上看似乎轻描淡写，但实际上蕴含着深厚的技术功底。

近期，Physical Intelligence公司推出的机器人基础模型π0.6在网络上引发广泛关注，一经亮相便展示了其强大的能力：

该模型能够驱动机器人连续一整天制作意式浓缩咖啡，持续数小时折叠各种类型的衣物，并且精准组装工业环境中所需的包装纸箱。

得益于π*0.6的强大性能，这些复杂任务的成功率均超过了90%。

Physical Intelligence π0.6机器人模型：通过Recap方法从错误中学习实现突破机器人 VLA模型强化学习 Recap方法第1张

然而，深入研读其技术论文可以发现，相较于能够连续制作13小时咖啡这一表象，π*0.6的真正革命性突破在于它引入了一种更符合直觉的学习方法——Recap：

指导：通过人类示范数据教会机器人基础动作
辅导：借助纠错指导让机器人修正自身错误
练习：从自主探索的经验中持续优化，逐步变强

这种方法彻底改变了传统机器人仅能通过模仿学习逼近“真值”的模式，使机器人具备了从自身错误中学习和成长的能力。

这一进展引发了网友的热议，有人感叹：

能够从错误中学习，这难道不比人类更厉害吗？

Physical Intelligence π0.6机器人模型：通过Recap方法从错误中学习实现突破机器人 VLA模型强化学习 Recap方法第2张

顶尖VLA模型——π0.6详解

π0.6沿袭了Physical Intelligence公司一贯坚持的VLA（视觉-语言-动作模型）技术路线，是自今年四月份推出π0.5之后的最新迭代版本。

Physical Intelligence π0.6机器人模型：通过Recap方法从错误中学习实现突破机器人 VLA模型强化学习 Recap方法第3张

总体而言，π*0.6的核心创新在于提出了一种通用的训练框架——基于优势条件策略的经验与纠偏强化学习（简称RECAP）。

Physical Intelligence π0.6机器人模型：通过Recap方法从错误中学习实现突破机器人 VLA模型强化学习 Recap方法第4张

RECAP方法使得VLA模型能够整合奖励反馈和人类干预进行训练，主要包含以下三个阶段：

离线强化学习：利用多机器人、多任务的示范数据（包含失败案例）训练价值函数和初始策略
任务微调：通过人类示范数据将π*0.6适配到具体任务（如制作咖啡、折叠衣物、组装纸箱）
在线优化：机器人在自主执行任务过程中获取稀疏奖励，同时结合专家的在线纠偏，更新价值函数，并借助优势条件化改进策略

Physical Intelligence π0.6机器人模型：通过Recap方法从错误中学习实现突破机器人 VLA模型强化学习 Recap方法第5张

下面，我们将深入剖析其技术细节。

首先，为什么RECAP会选择价值函数而非标准的策略梯度方法？这其中蕴含着一个巧妙的设计思路。

一方面，真实世界中的机器人数据具有高度的异构性：包含了人类示范、专家干预，以及机器人在不同策略下产生的执行轨迹。标准的策略梯度方法依赖于on-policy的实时数据，很难有效吸收这些历史混合数据，因此天然不适用于具身智能场景。

另一方面，VLA模型采用Flow Matching生成连续动作，这类模型缺乏显式的log π(a|s)，因此无法像传统策略那样直接对动作概率求梯度。

换言之，像PPO、REINFORCE这类经典强化学习算法在这种模型架构上难以发挥作用。

基于此，RECAP没有沿用传统RL的路径，而是创新性地引入了“优势条件化”策略：

模型依然采用监督学习的方式进行训练，但额外增加了一个输入通道，告知模型当前动作的优势值（advantage）。优势值越高，意味着该动作越值得被模仿学习。

于是，整个学习流程转变为：

价值函数负责评估动作质量 → 优势条件化负责传达评估结果 → VLA模型通过监督学习吸收所有数据中的有效信息

简言之，RECAP利用价值函数判断动作的优劣，然后通过优势条件化将原本需要强化学习求解的策略更新问题，转化为大模型所擅长的监督学习任务。

Physical Intelligence π0.6机器人模型：通过Recap方法从错误中学习实现突破机器人 VLA模型强化学习 Recap方法第6张

价值函数训练与策略提取：

为了使模型能够从异构数据中学习，首先需要训练一个能够区分“好坏”的价值函数。无论数据来源是演示还是自主尝试，其处理流程如下：

计算经验回报：针对每条轨迹，从当前时间步开始到结束计算累计回报，并进行归一化和离散化处理（划分为201个区间），从而为价值函数提供训练目标。
训练分布式价值函数：采用多任务分布式价值函数预测离散价值分布，通过最小化交叉熵损失进行训练，随后提取连续价值函数，获取每个状态-动作对的真实价值。
计算优势（advantage）：将动作的实际回报与价值函数预测值相减得到优势值，并对其进行二值化处理，形成高/低优势指标，作为策略训练的额外输入，引导模型选择更优动作。

借助优势信号，我们可以高效地实现策略提取。这种方法完美契合了前文提到的离线RL需求：

充分利用多样化的离策略数据：包括初始的人类示范、专家干预，以及机器人自主执行的轨迹（无论是最新策略还是早期策略产生的）。
良好的可扩展性：该方法需适用于大型VLA模型，包括那些使用流匹配（flow matching）或扩散（diffusion）生成动作的模型。
同时利用优劣数据：既要有效利用近似最优的动作，也要从次优动作中学习，这对于通过自主经验提升策略性能至关重要。

通过这种设计，RECAP成功地在不依赖昂贵的在线PPO更新的前提下，利用混合质量的离线数据实现了机器人的自我进化。

在线阶段：专家纠错与自主经验相结合

在机器人的自主执行阶段，RECAP通过两类数据不断优化策略：

专家纠错：专家通过远程干预纠正严重错误（例如纸箱折叠顺序错误），每一次纠错动作都会被标记为“正向优势”，用于训练模型学习错误恢复策略。
自主经验：模型自主完成的轨迹，无论成功与否，均被纳入训练数据。通过价值函数和优势指标自动筛选有效信号，优化精细动作的执行。

模型架构与性能表现

π*0.6基于π0.6构建，而π0.6则是对π0.5的进一步升级。

Physical Intelligence π0.6机器人模型：通过Recap方法从错误中学习实现突破机器人 VLA模型强化学习 Recap方法第7张

π0.6的骨干网络从Pi0、π0.5所使用的Gemma（2.6B参数）升级为Gemma3（4B参数），同时Action Expert的参数量也提升至860M。

在模型架构上，π0.6延续了π0和π0.5的设计，采用流匹配（flow matching）和离散动作token输出来生成动作片段。

实验环节中，研究团队在三个高难度的真实世界任务上对模型进行了评估：折叠多样化的衣物、在工厂环境中组装纸箱，以及制作浓缩咖啡。

在最困难的任务（如折叠多样化衣物和制作咖啡）中，RECAP将任务的吞吐量（即每小时成功次数）提升了一倍以上，与仅进行监督微调（SFT）的模型相比，RECAP使任务失败率降低了约2倍。

Physical Intelligence π0.6机器人模型：通过Recap方法从错误中学习实现突破机器人 VLA模型强化学习 Recap方法第8张

此外，模型展现出极高的运行稳定性，例如能够连续13小时制作咖啡、连续2小时折叠衣物而无需人工干预重置。

从失败中学习：Recap的核心启示

正如前文所述，Recap最具启发性的亮点在于它使机器人能够从错误经验中学习。

常言道“失败乃成功之母”，然而在传统的模仿学习乃至更广泛的监督学习范式中，逼近真值或最优解通常被视为最直接、最有效的策略。

这种方法在大规模语言模型（LLM）和其他机器学习系统中确实表现出色，且在数学上简洁优雅。

然而，对于现实世界中的机器人而言，仅仅知道如何正确执行任务，却不知道如何从错误中恢复，这将成为关键障碍。

在LLM等生成静态输出的AI系统中，监督学习假设数据是独立同分布的（i.i.d.），预测输出不会影响后续输入，因此偶尔的偏差不会引发致命问题。

Physical Intelligence π0.6机器人模型：通过Recap方法从错误中学习实现突破机器人 VLA模型强化学习 Recap方法第9张

但对于需要持续与外界交互的系统，例如机器人，情况则截然不同。

在模仿学习中，模型的每一个动作都会影响未来状态，一旦出现微小错误，就可能进入训练数据未曾覆盖的新状态，从而引发滚雪球式误差。这些误差不断累积，最终可能导致任务彻底失败。

因此，要让机器人实现“每次都成功”，仅仅复制示范数据是远远不够的。

解决这一问题的关键在于：让视觉-语言-动作（VLA）模型能够从自身实际犯过的错误中学习，如同人类通过反复练习不断纠正失误一样。

问题在于，这些经历应该如何标注？如果简单让模型复制过去的行为，它只会学会重复错误。关键在于如何从“坏数据”中提炼出有效的训练信号。

Recap通过在指导中辅以纠正，在练习中辅以强化来实现这一目标：

教练式纠偏（corrections）：当机器人犯错时，专家通过远程操作介入，示范如何恢复错误、如何更优地完成任务。

与传统示范教学不同，这里不是教“该怎么做”，而是教“当事情出错时该如何修正”。

这种针对性纠偏弥补了传统模仿数据的不足，是防止错误累积的关键环节。

强化学习（reinforcement learning）

然而，仅仅依赖人类提供纠正措施是远远不够的，机器人需要具备自主学习能力。

机器人需要根据一个回合的总体结果自行判断行为的优劣，并通过迭代学习执行有益行为，同时避免有害行为。

由此，引出了基于对错奖励的强化学习方法。

如前所述，实现强化学习的核心在于解决信用分配（credit assignment）问题。

即需要判断机器人执行的哪些动作导致了好的结果，哪些动作导致了坏的结果。

在此，Recap通过训练一个价值函数（value function）来应对这一挑战，该函数能够预测当前状态相对于其他状态的优劣。

Physical Intelligence π0.6机器人模型：通过Recap方法从错误中学习实现突破机器人 VLA模型强化学习 Recap方法第10张

△图片来源：Reinforcement learning: An introduction

举例而言，在经典的格子世界问题中，智能体通过一次次尝试更新每个状态的价值：落在好格子上，价值提高；掉进坏格子里，价值降低。

随着价值评估逐渐准确，智能体自然会倾向于选择那些能通向高价值状态的动作。

同样的逻辑适用于机器人：价值函数的变化为模型提供了一个简单而强大的判断信号。

使价值上升的动作：表示机器人更接近任务成功，应当被强化；
使价值下降的动作：表示偏离任务目标，需要被抑制或修正。

例如，在折叠衣服任务中（左图），红色区域表示机器人突然将衣服拉起的错误动作，对应价值下降；而绿色区域表示机器人正确完成折叠时的动作，对应价值上升。

Physical Intelligence π0.6机器人模型：通过Recap方法从错误中学习实现突破机器人 VLA模型强化学习 Recap方法第11张

可以说，价值函数帮助机器人识别“关键步骤”与“错误来源”，使其真正具备在复杂真实环境中从经验中不断变强的能力。

在训练好价值函数后，下一步是“策略抽取”：让策略（即VLA模型）以价值变化为条件进行训练。

所有数据——无论成功与否——都被保留，同时向模型明确哪些动作是有效的、哪些动作应避免。

这种优势条件化（advantage-conditioned）训练使模型能够在保留全部经验的前提下，从失败中学习，从而超越单纯依赖示范数据的表现。

综上，Recap不仅让机器人学会了执行任务，更重要的是，它让机器人掌握了自我纠正和优化策略的能力，为后续复杂任务的鲁棒性和效率提升提供了可扩展的解决方案。

与此同时，如果从好数据（示范）少，坏数据（错误经验）多的视角来看，π*0.6的突破可能更具深远意义——

它证明了机器人能够从真实执行中收集的“不完美经验”里，提炼出高效的学习信号，这也为后续机器人研究开辟了全新思路，提供了极具价值的探索方向。

参考链接：

[1]https://www.pi.website/download/pistar06.pdf

[2]https://www.pi.website/blog/pistar06

[3]https://www.physicalintelligence.company/download/pi05.pdf

[4]https://x.com/svlevine/status/1990574916622856290

性价比服务器阿里云服务器高防服务器

本文由主机测评网于2026-02-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260225682.html

Physical Intelligence π0.6机器人模型：通过Recap方法从错误中学习实现突破

顶尖VLA模型——π0.6详解

从失败中学习：Recap的核心启示

Adobe斥资19亿美元收购AI营销SaaS平台Semrush

CentOS7安装MySQL8.4及Navicat远程连接详细教程

Physical Intelligence π0.6机器人模型：通过Recap方法从错误中学习实现突破

顶尖VLA模型——π0.6详解

从失败中学习：Recap的核心启示

Adobe斥资19亿美元收购AI营销SaaS平台Semrush

CentOS7安装MySQL8.4及Navicat远程连接详细教程

相关文章