Physical Intelligence团队正式发布π*0.6

最新推荐文章于 2025-12-03 20:31:34 发布

转载最新推荐文章于 2025-12-03 20:31:34 发布 · 73 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247685814&idx=4&sn=ae785387a974cbde4a6753e12830cb4d&chksm=cf3d0842c7cd2060b15744b01bfc7804320428ced75ec927aa0c560e989aedb020c2b62c6977&scene=126&sessionid=0

文章标签：

#人工智能

点击下方卡片，关注“具身智能之心”公众号

作者丨Physical Intelligence团队

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

11月17号！Physical Intelligence团队正式发布，从经验中学习的VLA。

项目链接：https://www.pi.website/blog/pistar06
论文链接：https://www.pi.website/download/pistar06.pdf

VLA模型如何通过强化学习在现实部署中实现自我改进？提出了一种通用方法RECAP：基于经验与校正的优势条件策略强化学习，该方法通过优势条件机制实现VLA模型的强化学习训练。

该方法将异构数据整合到自我改进过程中，包括演示数据、在线收集数据以及在自主执行期间专家远程干预数据。RECAP方法首先通过离线强化学习预训练通用型VLA模型（记为），该模型随后可通过机器人现场数据收集实现下游任务的专业化性能提升。

实验表明，采用完整RECAP方法训练的模型能够实现家庭环境中的衣物折叠、可靠纸箱组装，以及使用专业意式咖啡机制作饮品。在部分高难度任务中，RECAP使任务吞吐量提升逾两倍，同时将任务失败率降低约50%。

熟能生巧

人类在掌握新技能时展现出卓越的灵活性，但要达到精熟境界必然需要从反复尝试中学习。借助VLA模型等通用机器人基础模型，可以通过提示词灵活设定通用型机器人的任务目标。但正如人类学习规律，这些模型同样需要通过反复练习才能臻于精通。

这意味着不仅要利用示范数据，更需要整合自主收集的实践数据，使策略能够修正实际部署中出现的错误，在人类远程操作水平之上提升执行速度与鲁棒性，并适应新的部署环境。虽然基于强化学习的自主实践理论基础早在数十年前就已确立，但要将这些原理融入通用且可扩展的机器人学习系统仍面临重大挑战：为大型模型设计可扩展且稳定的强化学习方法、处理来自不同策略的异构数据，以及在奖励信号可能模糊或随机的现实环境中建立具备奖励反馈的强化学习训练机制。

Physical Intelligence团队提出的RECAP方法，使VLA模型能够在训练流程的所有阶段：从预训练到自主执行数据训练，整合奖励反馈。RECAP旨在通过融合示范数据、自主实践与专家干预的通用方案解决这一难题。该方法以通用VLA训练方案为基础，整合多机器人平台的多样化数据：首先通过离线强化学习对VLA进行预训练，继而利用部署过程中收集的数据进行深化训练。

在部署阶段，机器人会根据每次任务执行结果获得（稀疏）奖励反馈，并可能获得修正错误的专家干预。训练过程遵循离线强化学习框架：训练用于评估任务完成进度的价值函数，进而利用该函数估算数据集中每个动作的优势值。通过让策略基于优势值得出的改进指标进行条件化训练，就能获得持续改进的策略。图1展示了RECAP方法的整体架构。

的应用与升级

可以运用RECAP方法来训练复杂任务的操作策略，例如折叠各类衣物、组装纸箱或制作意式浓缩咖啡。图2展示了部分任务的实景演示。该方法首先通过在多样化多任务多机器人数据集上进行离线强化学习，对模型进行预训练。该模型是基于版本针对强化学习场景的适配改进，而本身又是在基础上的升级版本，采用了更大型的主干网络和更多样化的条件机制。

新增了基于二值化优势值的条件调控能力，使其能够通过价值函数来优化策略。预训练完成后，系统会通过示范数据对进行下游任务微调，随后执行一轮或多轮机器人实地数据采集，借助强化学习持续优化模型。

实验表明，采用RECAP方法通过自主实践数据训练的模型，在部分高难度任务上实现吞吐量提升超过两倍，故障率降低两倍或更多。这使达到了实际可用的鲁棒性水平：目前成功部署该模型连续制作浓缩咖啡达13小时，在新环境中折叠陌生衣物持续运转超过两小时无中断，并在工厂场景中组装实际包装所用的纸箱。

尽管RECAP构建于已有研究中的独立算法模块之上，但其独特的组合方式具有创新性。研究首次证明，采用人类奖励反馈与干预相结合的通用强化学习方案，能够通过部署过程中收集的经验数据，显著提升VLA模型的鲁棒性与运行效率。

方法一览

方法主要包含数据采集、Value function训练、Advantage conditioned训练，通过重复执行这些步骤可优化基础VLA模型。

1. 数据采集。运行VLA执行任务，为每个任务周期标注结果标签（用于确定奖励值），并可选择引入人工干预来为早期迭代中的错误提供修正范例。

2. 价值函数训练。利用迄今收集的全部数据训练一个大型多任务价值函数（记为），该函数能检测故障并预估任务完成所需时间。

3. 优势条件训练。为通过价值函数改进VLA策略，在VLA前缀中加入基于价值函数推导优势值的最优性指标。这种"优势条件"训练方案提供了一种简单有效的方法，能从次优数据中基于价值函数提取更优策略。

图1展示了训练流程的整体结构，图3则提供了价值函数与策略架构的详细说明。预训练阶段包含在整个预训练数据集上执行上述(2)(3)步骤，该数据集包含来自大量任务和不同机器人的数万小时示范数据。随后通过重复执行(1)(2)(3)步骤，利用自主采集的数据持续优化VLA模型。

实现、模型和系统细节

基于VLA模型实例化 RECAP，是基于（的改进版本）。额外添加了二值化优势指标的条件化能力，使其适用于 RECAP 的强化学习训练。模型架构如图 3 所示，与VLA模型一起训练价值函数，该价值函数同样从视觉 - 语言模型初始化。通过 RECAP 训练该价值函数和VLA模型，得到最终模型。

模型

模型源自模型，能够通过流匹配灵活表示分块动作分布，并生成用于高级策略推理的中间文本。它采用知识隔离（KI）训练流程，在连续动作和离散化令牌（包括通过 FAST 离散化的动作）上对整个模型进行端到端训练，同时使用停止梯度防止流匹配动作专家影响模型的其他部分。预训练同时使用机器人数据和来自网络的视觉 - 语言联合训练数据。

在的基础上进行了多项改进：

1）预训练数据集增加了来自多个机器人平台的额外数据；

2）基础视觉 - 语言模型采用 Gemma 3 4B 模型；

3）动作专家的规模增加到 860M 参数；

从到：优势条件化

为了将优势信息纳入策略，这里扩展模型输入，添加额外的改进指标作为文本输入：当时输入 “Advantage: positive”，否则输入 “Advantage: negative”。优势指标出现在训练序列中ℓ̂之后、（离散化和连续）动作之前，因此仅影响动作对数似然。连续部分的对数似然无法精确计算，而是通过流匹配损失训练。流匹配和扩散（在某些假设下）可以密切关联，而扩散又可以解释为对数似然的下界，因此可以大致将离散动作的对数似然和连续动作的流匹配损失之和作为整体动作似然的下界：

奖励定义和价值函数训练

这里旨在开发一种通用且广泛适用的VLA模型经验训练方法，使用一种可应用于几乎任何任务的通用稀疏奖励定义。对于每个片段，我们获取一个指示片段是否成功的标签。从该片段级成功标签导出奖励，使得价值函数对应于（负的）任务成功完成所需的步数。这相当于以下奖励函数，其中 T 对应片段的最后一步，是一个大常数，确保失败片段具有低价值：

通过该奖励函数，训练价值函数预测成功片段的（负的）剩余成功步数，以及失败片段的大负值。在实践中，将预测值归一化到 (-1,0) 之间。由于在具有不同典型长度的异构任务上训练，我们基于任务的最大片段长度对每个任务的价值进行归一化。

价值函数与模型接收相同的语言输入，采用相同的架构设计，但使用更小的 670M 参数视觉 - 语言模型backbone（同样从 Gemma 3 初始化）。为了防止过拟合，还在少量多模态网络数据的混合集上联合训练价值函数。图 4 展示了价值函数在成功和失败片段示例上的可视化。

预训练、数据收集和经验学习

模型预训练阶段使用的数据混合大致遵循的方案，包括来自网络的视觉 - 语言数据、子任务ℓ̂预测以及来自多个机器人的多种任务的低级动作预测。需要注意的是，预训练后，能够执行的任务更多。

预训练时，首先在相同数据集上训练价值函数，预测每个任务成功完成的（负的）步数。然后估计每个任务的改进阈值，用于确定基于优势的改进指标。这里将设置为价值函数对任务ℓ预测值的 30% 分位数。随后，在VLA训练过程中实时运行价值函数，估计每个示例的，并基于计算，作为输入提供给。由于价值函数使用相对较小的视觉 - 语言模型骨干网络（670M），视觉 - 语言 - 动作训练过程中价值函数的实时推理仅产生最小的额外成本。

预训练完成后，启动目标任务的策略改进循环。首先，使用目标任务ℓ的演示数据微调。在该阶段，将指标固定为 True，这一设置能带来略好的结果，因此该阶段对应监督微调（SFT）。

得到初始策略后，使用该策略收集额外数据并添加到中。部分片段完全自主收集，部分片段由专家遥操作员监控并可进行修正干预。这些修正可以向策略展示如何避免灾难性失败或从错误中恢复。然而，仅靠修正难以解决所有问题：自主执行过程中的干预是一种破坏性事件，即使是专家人类操作员也无法保证干预质量的一致性，也无法改进行为的细微方面（如整体速度）。因此，修正主要用于修复重大错误和克服探索挑战，而非提供最优监督（与理论不同）。对所有修正强制设置，但除此之外，无论是否提供修正，整个片段（包括自主部分和修正部分）都可选择添加到数据集中。

数据收集完成后，在为该任务收集的所有数据上微调价值函数，然后使用更新后的指标微调策略，采用与预训练相同的流程。价值函数和策略均从预训练检查点微调，而非上一轮迭代的策略和价值函数。我们发现这有助于避免多轮迭代中的漂移，尽管从最新模型持续微调也可能获得良好结果。根据需要，该过程可重复多轮迭代，但在实践中，即使一轮迭代也能带来显著的结果改进。

实验分析

在实验评估中，使用 RECAP 训练模型，完成一系列真实任务：制作浓缩咖啡饮品、折叠多种衣物和组装纸箱。每个任务需要多个步骤，持续时间 5 到 15 分钟，涉及复杂的操作行为（受限强力操作、液体倾倒、布料和纸板操作等），并需要快速执行以实现高吞吐量。在图 5 中展示了实验中使用的机器人平台。

评估任务

本工作的定量评估和对比使用三大类任务（含多个任务变体）：衣物折叠、咖啡制作和纸箱组装。任务总结如下（图 6 展示了任务示意图）：

衣物折叠（T 恤和短裤）：这是论文中的标准衣物折叠任务。该任务要求从初始状态可变的篮子中取出 T 恤或短裤，展平并折叠。成功标准为在 200 秒内将一件衣物折叠并堆叠在桌子的右上角。

衣物折叠（多种物品）：该任务要求折叠更多种类的物品，包括 11 种类型（毛巾、纽扣衬衫、毛衣、牛仔裤、T 恤、短裤、马球衫、裙子、长袖衬衫、袜子和内衣）。为了在实验中获得低方差指标，评估最具挑战性的物品之一：纽扣衬衫。但策略在所有物品上训练，配套视频展示了多种衣物的折叠结果。成功标准为在 500 秒内将目标物品正确折叠并堆叠在桌子上。

衣物折叠（目标失败模式消除）：该衣物折叠任务的最终版本采用更结构化的设置，用于消融实验。任务要求从固定展平的初始状态折叠一件橙色 T 恤。我们最重视成功率，严格的成功标准要求衬衫折叠正确，衣领始终朝上，且在 200 秒内完成。我们发现该任务有助于评估 RECAP 是否能通过强化学习消除特定的不良行为。

咖啡制作（双份浓缩咖啡）：使用商用浓缩咖啡机制作咖啡的长时程挑战性任务上评估策略。尽管咖啡制作策略能够制作多种饮品（拿铁、冰美式、浓缩咖啡等），甚至能用毛巾清洁浓缩咖啡机，但为了定量实验，我们专注于双份浓缩咖啡任务。该任务包括拿起咖啡手柄、将其放在研磨机上并研磨咖啡豆、压实咖啡粉、将咖啡手柄锁定到浓缩咖啡机中、取出杯子、萃取完整的浓缩咖啡，然后完成供应。成功标准为在 200 秒内完成所有步骤，且无严重错误（如掉落咖啡手柄或洒出咖啡）。

纸箱组装：在真实工厂部署场景中评估纸箱组装任务的策略。纸箱组装包括从展平的纸板开始折叠纸箱、贴上标签并将纸箱放置在箱子的指定位置。定量实验中，关注任务的所有部分，整体成功标准为在 600 秒内将展平的纸板组装成堆叠的纸箱。

对比和消融实验

图7展示了衣物整理（简单与多样化）、咖啡制作和纸箱组装任务中每小时成功完成的任务数量。误差线表示标准误差。该指标同时衡量任务成功率与执行速度。在所有实验场景中，采用RECAP方法的模型均实现吞吐量的大幅提升。RECAP对多样化衣物整理和咖啡制作任务的吞吐量提升最为显著，每小时成功完成次数增加超过两倍。

成功率。图8展示了包含标准误差的绝对成功率数据。RECAP方法的每个训练阶段都提升了各项任务的性能表现，其中最具挑战性的多样化衣物整理与咖啡制作任务实现了最大幅度的成功率提升，相当于故障率降低超过两倍。在纸箱组装任务中，展示了各子任务的独立成功率。RECAP方法在所有子任务中实现了最稳定（且最高）的成功率表现。

图9展示了经过多轮迭代的吞吐量提升情况。随着RECAP方法迭代次数的增加，两项任务的吞吐量均实现显著提升，其中纸箱组装任务呈现先降后升的显著改善趋势。

经过多轮迭代的成功率提升情况。衣物整理任务迅速达到最高成功率（但如图9所示，其吞吐量持续提升），而纸箱组装任务的成功率则保持持续增长。

不同策略提取方法的对比。在衣物整理任务中，采用RECAP方法的模型实现的吞吐量远超AWR和PPO方法，展现出显著优势。

故障模式消除。在衣物整理任务的变体（单件衣物但采用极严格成功标准）上应用RECAP方法。该方案能有效消除在严格标准下被视为失败的故障模式，因此我们的方法仅需相对较少数据即可有效调整策略行为。

一些讨论

RECAP仍存在若干改进方向：首先，当前系统尚未实现全自动化，仍需依赖人工标注进行奖励反馈、干预任务重置。一些研究已探索这些环节的自动化方案，而VLA本身也为实现更高效的数据采集提供了新思路，例如采用高层策略进行场景重置推理。其次，系统的探索机制相对简单，主要依靠策略随机性与人工干预进行贪婪探索。在初始模仿学习策略已具备合理行为的基础上这种方式可行，但采用更复杂的探索方法仍有较大提升空间。

最后，RECAP采用迭代式"离线"更新模式（收集数据批次→重新训练模型→循环），而非在数据采集同时实时更新策略与价值函数的全在线强化学习框架。当前选择是出于实施便利性考虑，将方法扩展为完全并行的在线强化学习框架是未来的重要研究方向。

更宏观地看，采用强化学习训练VLA或许是达到现实应用性能要求的最直接路径。VLA的强化学习面临诸多挑战：从大容量模型的大规模训练难度，到样本复杂性、自主性与延迟反馈等问题。虽然现有为小规模系统或LLM等"虚拟"领域设计的强化学习框架提供了良好基础，但要使其成为VLA训练的有效工具仍需更多探索。