摘要
SFT已成为VLA模型事实上的训练后策略,但其对高成本人类演示数据的依赖限制了模型的可扩展性与泛化能力。本文提出“Probe, Learn, Distill,PLD”框架——这是一种三阶段即插即用框架,通过残差RL和分布感知的数据收集来改进VLA模型。
- 阶段1(专家策略获取):冻结VLA骨干网络,通过离线强化学习训练轻量级残差演员网络(residual actor)。这些专家策略会在base policy失败的状态下接管控制,从而探测出VLA通用模型(generalist)的失败区域。
- 阶段2(数据收集):采用混合滚动策略(hybrid rollout scheme),使残差策略的干预偏向于基础策略频繁访问的状态,确保收集到的轨迹与通用模型的部署分布对齐,同时捕捉恢复行为(recovery behaviors)。
- 阶段3(微调):通过标准SFT将这些精心整理的轨迹蒸馏回通用模型,该过程适用于flow-matching和autoregressive两种动作头。
我们在多种场景下对PLD进行评估:在LIBERO基准测试中实现了近饱和的99%任务成功率,在SimplerEnv环境中性能提升超50%,并在真实世界的Franka机械臂和YAM机械臂灵巧操作任务中实现100%成功率。此外,消融实验表明,残差策略探测和分布感知回放是收集“与部署对齐的数据”的关键,这类数据可同时提升VLA模型在已见任务和未见任务上的性能。研究结果表明,由强化学习生成、与策略对齐的数据可超越纯遥操作演示数据,为VLA模型的自改进提供了一条可扩展路径。

1 引言
SFT已成为LLM的标准训练后范式:在广泛的预训练之后,模型通过在精心整理的指令-响应对上训练来适应下游应用,从而在语言遵循、安全性和泛化能力方面获得诸多提升。受这些成功案例的启发,相同的流程如今被应用于机器人基础模型,尤其是VLA策略——异质机器人数据集和视觉-语言数据集为模型提供基础初始化,SFT则将模型特化为适用于特定任务和载体的版本。
然而,将这一范式从语言领域迁移到机器人领域面临独特挑战:收集高质量机器人演示数据既昂贵又耗时,难以获取大规模数据集;即使获得此类数据,它们通常通过与部署的VLA策略解耦的遥操作流程收集,导致关键覆盖缺口——人类操作者必须手动预测并修正失败模式,但他们的演示数据很少能反映策略在部署时实际遇到的状态分布。因此,尽管SFT能可靠提升模型在训练任务上的性能,但对于这些性能提升能否迁移到新任务和新环境,目前仍知之甚少。

这些挑战引出了一个核心问题:VLA模型能否利用强化学习整理的数据实现自改进,同时最小化人工干预?具体而言,这种自整理的训练数据在分布内和分布外(out-of-distribution)任务上能否达到甚至超越基于人类专家( oracle)遥操作数据的微调效果?
我们的核心观察是:数据收集不应与基础策略无关——数据收集策略与通用模型必须交互,这样探索过程才能利用通用模型的先验知识,且收集到的数据能与通用模型的轨迹分布保持对齐。实现这一思路的自然方式是利用强化学习(RL)获取任务特定的专家策略,以指导数据收集。但在此场景下应用强化学习面临两个关键挑战:
- 语言条件下的操作任务中存在稀疏奖励信号,导致强化学习不稳定且样本效率低;
- 独立于通用模型训练任务特定专家策略会引发分布失配(distributional mismatch),且这些专家策略收敛后,其行为往往缺乏为SFT提供稳健覆盖所需的多样性。
针对这些挑战,本文提出PLD——一种三阶段训练后流程:
- 阶段1:在线专家策略获取:冻结VLA骨干网络,通过样本高效的离线强化学习为多个任务训练轻量级残差演员网络,使其能在任意状态下“接管”基础策略,并实现99%以上的任务成功率。
- 阶段2:自动数据收集:提出混合滚动策略,使残差策略的接管偏向于基础模型频繁访问的状态,在捕捉恢复行为的同时缓解分布偏移。
- 阶段3:监督微调:将多个任务的收集数据通过SFT蒸馏回基础模型,该过程与VLA架构无关,同时支持流匹配和自回归动作头。

PLD的流程概览如图3所示。通过PLD,我们能借助VLA引导的探索高效获取任务特定的强化学习专家策略;进而,VLA模型利用PLD数据实现进一步改进,在LIBERO基准测试中达到99%以上的性能。
本文的贡献如下:
- 自主训练后方案:提出一种训练后流程,使VLA模型无需依赖额外专家演示数据即可实现自主改进。该方法在LIBERO基准测试中实现近饱和的99%成功率,在SimplerEnv中性能提升超50%,证明其在已见任务上的有效性和对未见任务的泛化能力。
- 强化学习生成数据的系统性研究:分析自动数据收集中对SFT最有益的关键组件,并在仿真环境和真实机器人硬件上开展大量实验,探究强化学习生成数据对未见任务泛化能力的影响。
- 全面的实证验证:对设计选择进行大规模消融实验;此外,在Franka机械臂和YAM机械臂的灵巧操作任务上实现超99%的成功率,且能连续1小时执行GPU插拔操作而无需人工干预,为机器人基础模型的数据高效训练后优化提供了可能。
2 预备知识
2.1 任务建模
本文研究基于VLA模型的语言条件下操作任务,采用稀疏二元奖励。我们假设控制过程为部分可观测,时域长度为T,任务成功时 episode 终止并重置,且存在时间限制。每个 episode 结束后,会分配一个奖励r ∈ {0,1}。
设g为指定目标的语言提示,oₜ为包含机器人本体感知(如关节角度)和RGB图像输入的部分观测。策略接收(oₜ, g)并输出7自由度动作(6自由度增量位姿+1自由度连续夹爪指令),表示为:
其中,h_θ为视觉-语言骨干网络,D_φ为动作头。与现有VLA模型一致,D_φ采用以下三种常见形式之一:
- (i)基于扩散或流的动作头,用于连续控制;
- (ii)离散动作分词器,用于自回归解码。
本文目标是通过调整φ和θ最大化成功率。
2.2 监督微调
给定VLA策略和包含观测oₜ、目标指定gₜ、专家动作aₜ的演示数据集D = {(oₜ, gₜ, aₜ)},SFT通过最大化条件动作概率来适配策略。设xₜ = (oₜ, gₜ),标准目标为行为克隆(BC)损失。在当前VLA系统中,损失的具体形式取决于动作头架构:
自回归/分词动作头
自回归/分词动作头通过对动作分词u₁:K的序列负对数似然(NLL)进行训练:
小于
现有研究通过动作分块(action chunking)和并行解码提升效率,并采用ℓ₁回归目标训练连续动作参数化。
扩散动作头
扩散动作头对动作的条件去噪过程建模,通过分数匹配MSE训练:
该方法支持推理时的迭代采样。
流匹配动作头
流匹配动作头学习连续速度场,将先验分布转换为动作分布,通过L₂流匹配损失训练,且常与视觉-语言模型(VLM)骨干网络结合,实现基于语义的控制。
在上述所有动作头中,SFT仍是利用少量带标签机器人数据将通用策略特化为适用于新载体和新任务的标准机制。
2.3 目标条件强化学习
我们将连续控制建模为马尔可夫决策过程(MDP),其中:
- S为状态空间,A为动作空间,ρ(s’ | s, a)为转移动力学,ρ₀为初始状态分布,r为奖励函数,γ ∈ (0,1]为折扣因子。
在目标条件场景中,每个任务由从p(g)中采样的目标变量g ∈ G指定;奖励函数变为目标依赖的r: S × A × G → ℝ,策略表示为π: S × G → Δ(A),即π(a | s, g)。
目标条件强化学习(GCRL)可视为在S × G上具有固定目标的增强MDP:
在无限时域设置下,强化学习的目标函数为:
本文考虑稀疏二元奖励场景,即:
其中,ℐ为指示函数,φ(s)为与目标相关的状态表示,d为距离度量,ε > 0为容忍度。
3 方法
方法概览
本文研究当适度的VLA通用模型作为策略先验时,PLD生成数据的协同效应。核心前提是:若能正确利用基础策略的先验知识,模型既能快速解决困难任务,又能高效探索。
现有研究尝试对VLA模型直接进行强化学习微调,但此类方法即使对单任务微调也需大量资源——例如,OpenVLA-OFT在LIBERO训练中,批量大小为8时单GPU内存需求高达约62.5 GB。此外,目前尚不清楚这些方法在异质设置下能否顺利扩展到多任务微调。
因此,本文采用解耦流程:
- 冻结基础策略π_b,通过样本高效的离线强化学习训练轻量级残差动作策略π_δ(高斯策略参数化);
- 让残差策略在基础策略“探测”指定步数后“接管”,收集专家数据;
- 通过SFT将这些技能蒸馏回基础模型,并将通用模型部署到多种操作任务中。
PLD的详细流程如图3所示。
3.1 基于策略先验预热的样本高效强化学习
基于现有利用先验数据实现样本高效强化学习的研究,本文采用离线actor-critic框架,并维护两个独立的缓冲区用于离线和在线经验回放:
- 首先,用基础策略π_b的成功滚动轨迹填充离线缓冲区B_offline = {τ₁, τ₂, …},该过程通过重要性采样仅保留成功尝试;
- 训练过程中,离线和在线经验对称回放——例如,迷你批次(mini-batch)包含来自两个缓冲区的等量样本,确保价值函数始终在高价值状态-动作对上训练。
在实践中,我们训练任务特定的残差动作模块π_δ(· | s, a_b),其条件为a_b ~ π_b。利用π_δ在基础策略行为附近探索,在Q函数的引导下主动寻找更优解。为调节探索过程并避免训练初期与π_b偏离过大,残差动作的幅度被缩放到[−ξ, ξ]区间,其中ξ ∈ [0,1]由调度器(scheduler)调整。
这一设计的优势体现在两方面:
- 尽管基础策略无法完美泛化到未见操作任务或场景,但它能为任务解决提供合理尝试,为探索过程提供有用的初始化;
- 直接训练具有表达能力的基础策略(如流动作头)以最大化Q值难度极大,而残差高斯策略可通过任意现成的离线强化学习算法轻松训练。
除π_δ外,动作价值函数Q^π通过策略迭代和时序差分学习(TD-learning)获取,如公式(2)所示,其中为组合策略:
为稳定离线学习并缓解遗忘,本文引入预热阶段——仅使用π_b收集数据。同时,采用保守目标(如Cal-QL)初始化Q函数。重要的是,我们未在策略损失中显式施加行为约束,因此最终的专家策略受数据质量或基础策略性能的影响较小。
3.2 引导强化学习专家策略以实现可扩展数据生成
接下来的问题是如何利用强化学习专家策略收集演示数据。强化学习专家策略生成的数据具有高度最优性,行为一致且几乎无犹豫,能以更短的时域长度平滑完成任务。但这种单峰(unimodal)专家行为的窄分布可能导致分布外状态和失败状态的代表性不足。因此,仅扩展专家数据可能无法提升性能,反而可能导致通用模型在这些数据上过拟合,损害稳健性和泛化能力(下文将详细讨论)。
为缓解这一问题,本文提出融合基础策略初始化的混合数据收集方案:
- 首先让基础策略随机滚动一定步数;
- 然后让训练好的残差强化学习策略接管,生成演示轨迹:
该轨迹包含专家策略从潜在非最优区域恢复的行为,我们将这一过程称为“基础策略探测”。
相应地,通过在基础策略探测的随机步数给出的初始状态分布s₀ ~ p₀^π_b上训练强化学习专家策略,可提升其稳健性。需注意,探测步骤仅用于状态初始化,不会加入回放缓冲区。PLD的详细步骤总结于算法1。

4 实验
本节对PLD进行系统性评估:
- 首先验证PLD强化学习在解决稀疏奖励操作任务上的效率(这是整个流程的基础);
- 然后重点研究:
- PLD的探测机制如何助力VLA的SFT;
- PLD数据与其他演示数据源(如人类数据、强化学习专家滚动数据、VLA基础策略滚动数据)的对比效果;
- 最后探究PLD流程的关键因素及其对VLA性能提升的贡献。
本文以仿真环境性能作为真实世界性能的代理,在两个广泛使用的仿真基准上评估方法:
- LIBERO:聚焦语言引导操作任务的终身学习基准,包含130个语言条件操作任务,分为4个套件,分别侧重物体分布、空间布局、任务目标及其组合;
- SimplerEnv:机器人操作基准,旨在实现高仿真-真实迁移相关性。
下文分析的数据源包括:
- PLD数据D^PLD;
- 人类数据D^Human;
- 强化学习专家数据(无基础策略探测的强化学习专家滚动数据)D^RL;
- 基础策略滚动数据(仅选择成功滚动轨迹,也称为“自引导数据”)D^Base Policy。
除非特别说明,所有方法在架构上使用相同的数据量、训练预算、数据增强和超参数;默认基础策略为π₀。
4.1 强化学习专家策略学习的有效性与效率
本节旨在回答以下问题:PLD是否能同时受益于策略引导和混合在线学习?
我们将PLD与利用策略先验或数据先验的现有最优方法对比:
- WSRL:仅离线初始化;
- RLPD:无基础策略引导。
预训练阶段,为每个任务收集50条轨迹的数据集(仅包含同一基础策略π₀的成功试验),并使用Cal-QL作为默认预训练算法;随后,为采用在线混合数据回放的方法保留这些数据。

图5展示了250k步在线交互的训练曲线,包含3个随机种子的平均滚动性能和95%置信区间(CI)。结果表明:在LIBERO-90的8个任务上,PLD显著优于基准方法,证明其能有效利用VLA策略先验,并在低交互预算下实现出色的样本效率。
在渐近性能方面,PLD在报告的所有微调任务(超120个操作任务)上均能达到95%以上的性能。值得注意的是,PLD初期存在性能下降——这一现象表明训练初期残差策略开始偏离基础策略,进入潜在的非最优状态探索。PLD强化学习设计选择的消融实验详见附录B.2。

4.2 分布内性能
本节探究所提流程对VLA性能提升的有效性。我们在LIBERO基准的三个子集上评估分布内微调(每个子集包含10个语言条件任务):LIBERO-Object、LIBERO-Spatial和LIBERO-Goal;此外,还在SimplerEnv的4个自定义任务上报告结果。
为证明架构无关性,基础VLA模型采用两种形式:
- (i)OpenVLA(自回归动作分词);
- (ii)π₀(流匹配动作头)。
由于VLA模型主要在真实世界数据集上训练,无法直接在仿真基准上使用,因此我们利用其官方检查点(checkpoint)在每个基准上进行模型微调,作为基准方法。测试时,每个策略在每个任务上评估50个episode,报告每个套件的平均成功率和基准的整体平均成功率。

表1和表2列出了应用本文方法后的性能提升。结果表明:在所有套件和两种架构上,PLD数据相比纯人类数据SFT均实现了稳定的绝对性能提升,且无需额外人类演示数据。我们还观察到,更大的PLD数据集会单调提升分布内成功率,且蒸馏后的通用模型显著优于平均专家策略,证明任务特定能力已有效迁移到基础VLA模型中。

4.3 泛化能力
对未见任务的泛化
为研究PLD数据的协同效应,我们探究PLD数据是否能提升VLA在LIBERO基准未见任务上的零样本性能。具体而言:
- 从LIBERO-90的不重叠覆盖子集按比例{0.1, 0.3, 0.6, 0.8, 1.0}采样数据,通过SFT微调π₀;
- 对于每个覆盖度水平,随机采样任务形成新的分布内子集,然后在整个套件的所有任务上评估;
- 为确保结果稳健,每个覆盖度水平采样4个子集。
我们对比三种数据源:
- 本文的D^PLD;
- 人类专家数据D^Human;
- 自引导数据D^π₀滚动数据(等同于0-1 REINFORCE)。
结果如图2所示。在所有覆盖度水平下:
- 基于D^PLD微调的π₀在分布内任务上性能最强,且对未见任务保持稳健的零样本迁移能力;
- 仅使用人类数据的SFT在相同训练预算下实现了相近的零样本泛化水平,但在分布内任务上性能落后;
- 基于π₀自引导滚动数据微调的模型在分布内任务上性能较差,且无法泛化到分布外任务。

对分布外任务的泛化
我们研究PLD数据在目标、布局和背景不同的任务上的少样本泛化能力:
- 在源任务(LIBERO-Goal)上收集不同规模的PLD数据;
- 在目标任务(LIBERO-90)上评估微调性能(VLA也在少量目标任务的专家演示数据上微调);
- 为按技能类别分析迁移效果,从LIBERO-goal和LIBERO-90中选择语义相关性高的任务,形成源/目标任务对;
- 将DPLD的规模从50条轨迹扩展到500条,在相同数据和训练预算下与DRL和D^BS对比。
如图7所示,随着数据规模从50条扩展到500条,SFT性能呈现单调提升。
对长时域任务的泛化
我们在LIBERO-100上评估技能组合能力:
- 在源任务(LIBERO-90)上微调基础VLA;
- 在保留的LIBERO-10长时域目标任务上进行单样本评估(每个任务提供1条人类演示)。
PLD数据的构建方式为:先在LIBERO-90的每个任务上独立训练残差强化学习专家策略,然后聚合其成功滚动轨迹。
如图6所示,基于PLD数据的微调性能优于基于基础策略滚动数据(自引导)的微调,但仍低于基于人类专家演示数据的微调性能。
4.4 真实世界性能
我们在真实世界的7自由度Franka Emika Panda机械臂上评估方法,考虑两类典型操作任务:拾取-放置和插销插入(如图1所示)。与现有研究不同,本文不限制任务随机性,使真实世界强化学习更具挑战性。详细实验设置见附录D.1。
数据收集与策略训练
- 首先收集200条遥操作轨迹,对基础策略π₀进行监督微调(SFT);
- 基于该初始化,训练π₀-PLD和π₀-RLPD,无需人工干预——两种策略均在2小时训练内实现两类任务100%的成功率;
- 利用训练好的专家策略自主收集200条成功演示轨迹,形成数据集DPLD和DRLPD;
- 利用这些数据集进一步微调π₀,得到+DPLD、+DHuman和+D^RLPD三种模型。
性能与失败模式
在每个任务的30次随机试验中:
- 所有方法在插销插入任务上均实现完美成功(30/30),证明其稳健的反应式技能;
- 在立方体拾取任务中:+DRLPD和+DHuman的成功率分别仅为16/30和10/30,而+D^PLD保持30/30的成功率。

图8展示了典型失败模式:基于DRLPD或DHuman训练的策略常将立方体推到左上角,导致夹爪卡住;而+D^PLD能通过重新定位立方体再抓取,实现可靠恢复。
分布分析表明:人类演示数据和强化学习滚动数据均未覆盖此类角落状态,而PLD通过显式探测基础策略,生成了包含这些状态的多样化轨迹——这解释了其稳健性,并凸显了其作为自改进数据飞轮的潜力。
此外,我们还在随机化评估环境中测试了更具挑战性的场景,证明PLD在真实世界中的泛化能力(详见附录D.2)。

长时域任务的稳健性
为评估PLD在长时域灵巧操作任务中的稳健性,我们搭建了两台6自由度YAM机械臂(由I2RT-Robotics开发),任务为工业级插入操作——将微型显卡插入主板。
为实现完全自主操作(无需人工干预或重置),将任务分解为4个阶段:
- 阶段1:从桌面拾取GPU并插入插槽1;
- 阶段2:将GPU从插槽1移至插槽3;
- 阶段3:将GPU牢固插入插槽3;
- 阶段4:从插槽3拔出GPU并放回桌面。
训练奖励分类器控制状态机以协调这些阶段。每个子任务训练最多8小时,并将学习到的技能蒸馏到单个行为克隆(BC)基础策略中——最终系统能连续执行完整任务循环至少1小时,无需人工辅助。如视频所示,尽管每个阶段的单样本成功率未达100%,但系统能从失败中恢复,使数据飞轮自主运行。
4.5 PLD的工作原理

本节深入分析PLD数据提升泛化能力的根本原因。如图10所示,我们为每种方法绘制了50条轨迹(任务描述:“打开中间柜子的中间抽屉”):
- 强化学习专家策略提供最优且集中的任务解决方案,但多样性不足,且与基础策略行为偏差大;
- PLD数据聚集在基础策略的试验附近,且包含多种恢复行为。
基于实证观察,我们提出假设:由于基础策略探测,PLD数据提供了偏向基础策略的解决方案,因此微调过程中基础模型的泛化能力遗忘更少——这与LLM微调中的观察一致,其中KL散度可作为遗忘的指标。同时,大数据覆盖度也有利于序列决策的稳健性。
初始化时域的敏感性研究
我们选择LIBERO-90的任务0-9,改变随机采样的初始化步数——通过滚动基础策略的初始化步数T_base ~ [0, αT],其中α ∈ [0.0, 0.2, 0.4, 0.6, 0.8]。
随着α增大,成功轨迹的平均episode长度增加,表明需要更长的“绕路”来修正基础策略的非最优行为。如图11所示,性能在α=0.6时达到饱和,α进一步增大则性能下降——这与我们的分析一致,即SFT受益于数据多样性。

5 相关工作
5.1 机器人基础模型
受LLM和视觉-语言模型成功的启发,近期机器人基础模型研究采用类似的Transformer架构,并大力推进数据规模化。这催生了早期VLA模型,如RT-1、RT-2和OpenVLA等。同时,基于扩散的动作生成借鉴生成建模技术,实现了平滑且精确的动作生成,进而推动了最新VLA架构的发展,如Octo、OpenVLA-OFT、GR00T和π系列模型。
VLA的训练流程通常与VLM类似:
- 从相应VLM骨干网络初始化模型权重;
- 在多样化预训练数据集上通过下一个token预测任务训练模型,数据集涵盖多模态网络数据(如COCO、VQAv2)和机器人特定的跨载体数据;
- 利用从目标机器人部署平台收集的少量高质量遥操作数据,对模型进行监督微调,使其适应目标任务。
5.2 基于数据和策略先验的样本高效强化学习
样本效率和探索效率一直是强化学习的核心问题,尤其在稀疏奖励场景中。现有研究探索利用离线数据提升样本效率,主要分为两类:
- 离线-在线迁移:采用两阶段流程,先通过离线强化学习中的悲观主义或约束目标初始化策略或评论家,再通过在线微调阶段收集新数据以缓解分布偏移;
- 混合强化学习:在线强化学习中利用离线数据集——例如,通过持续回放专家演示数据确保高价值状态访问,或通过专家演示引导探索。
数据先验还可用于无重置的真实世界学习。另一类研究假设存在策略先验(如预训练通用模型),例如:
- 利用基础策略通过辅助行为正则化目标引导强化学习;
- 动作编辑(action editing)是改进策略先验的高效方式——ResiP通过PPO学习残差策略,EXPO则采用离线解决方案并在训练过程中协同训练基础策略。
本文工作利用非最优基础策略实现非零成功率的探索预热,但无需专家演示或人类专家的进一步干预。
5.3 VLA训练后优化
VLA训练后优化的主流大规模方案是:在多样化异质机器人数据上预训练,然后在任务特定演示数据上微调。例如,现有研究在精心整理的任务目标语料库上进行监督训练后优化,每个任务的遥操作数据覆盖从几小时到超100小时不等。由于此类训练后数据收集成本高,作者指出模型多样性主要依赖预训练数据组合——这凸显了纯SFT的关键局限:适应阶段的数据稀缺且覆盖不足。
为实现自改进,现有研究探索通过在线强化学习专家策略扩展高质量数据,但这些流程通常需要大量人工干预,且数据收集与通用模型行为无关,限制了可扩展性。其他研究方向包括:
- 基于在线强化学习的训练后优化;
- 以泛化能力为代价优化单任务微调。
本文工作通过以下方式同时解决这些局限:提出训练后流程以减少人工干预、使数据收集与通用模型的状态分布对齐、确保流程对真实世界系统具有足够的样本效率。
6 结论
本文提出PLD——一种三阶段训练后流程,使VLA模型无需依赖额外人类专家演示数据即可实现自改进。PLD将冻结的VLA通用模型与轻量级残差强化学习专家策略结合,实现探索预热,并通过标准SFT将整理后的成功经验蒸馏回基础模型。
在大规模仿真实验和真实世界部署中,PLD在无额外人类演示的情况下实现了显著改进:在LIBERO基准上达到近饱和的~99%成功率,在SimplerEnv中性能提升超50%,且在真实世界中表现稳健。消融实验表明,残差策略探测和分布感知回放是确保稳定性、样本效率和泛化能力的关键。
本文认为,PLD是实现自主、可扩展训练后优化的实用步骤,为未来多载体迁移、机器人持续学习和安全约束数据收集研究奠定了基础。
A 算法
算法1:基于基础策略初始化的PLD流程
输入:π_b、π_δ、Q_φ、Q_φ’、α、γ、B_offline、B_online
初始化
- 收集π_b的n次成功试验:D_offline = {τ₁, τ₂, …, τₙ}
- 初始化在线缓冲区D_online = ∅
- 随机初始化残差策略网络π_δ
- 利用Cal-QL在D_offline上初始化评论家网络Q_φ、Q_φ’
强化学习训练
- 冻结π_b,记
- 对于每个强化学习步骤:
a. 若收集数据:
i. 若处于预热步骤:仅使用基础模型滚动,动作a ~ π_base(· | s)
ii. 否则:采样动作
iii. 环境步骤:r, s’, done = env.step()
b. 将(s, a, μ, r, s’)加入缓冲区D_online
c. 从在线和离线缓冲区中等量采样数据:b ~ D_online ∪ D_offline
d. 通过引导计算时序差分(TD)目标
e. 通过公式(2)更新Q_φ
f. 通过最大化SAC目标更新π_δ
g. 软更新(Polyak update):φ’ = ρφ’ + (1 − ρ)φ
基础策略SFT
- 对于每个任务,收集混合行为数据集D_SFT,其中策略为:
- 对于每个SFT步骤:通过行为克隆(BC)目标更新π_b
输出:π_b


B 实现细节
B.1 强化学习基准方法
为确保4.1节中的对比公平性,我们基于SERL框架实现这些基准方法,并根据研究设置进行适配。以下详细说明基准方法的公式和实现:
RLPD
RLPD提出混合强化学习流程,利用离线数据在稀疏奖励场景中促进学习。训练过程中,从在线和离线缓冲区等量采样数据;同时,采用LayerNorm处理高更新-数据比(UTD)下常见的Q值爆炸问题。本文参考SERL软件的实现,用于仿真和真实世界部署。
WSRL
在原始研究中,WSRL在离线阶段利用Cal-QL同时预训练动作网络和评论家网络;在线阶段则丢弃离线数据,并用预训练策略的50k步滚动轨迹预热回放缓冲区。本文未使用类似D4RL基准的大型多样化数据集,而是采用与PLD相同的方式——从基础模型收集成功轨迹。
我们在SERL框架下实现WSRL(此时UTD不再固定为4)。该基准可视为残差策略和离线数据回放的消融实验,用于验证基于基础策略的在线探索预热和通过混合数据回放保留离线数据的效果。
JSRL
Jump-start RL(JSRL)是一种元算法,利用现有引导策略进行“滚入”(rolling-in)。其核心机制是为学习者塑造初始状态分布:JSRL从引导策略访问的状态中重复重置episode(形成从简单/近目标状态到困难/远目标状态的课程学习),使困难任务能通过更少试验学习。JSRL利用引导策略收集数据,但不直接模仿其动作,且与底层强化学习骨干无关。
本文选择SAC作为探索策略,实现JSRL。由于JSRL仅在在线交互中利用策略先验(实际为VLA策略)进行探索预热,因此可作为混合经验回放机制的消融实验。
Cal-QL
校准Q学习(Cal-QL)解决了CQL的低估问题,显著提升了离线-在线场景中的微调性能。它学习保守的价值函数——对分布外(OOD)动作的价值进行低估,同时确保价值在合理范围内。在实践中,它通过离线数据集D对应的行为策略μ的价值,对保守Q函数设置下界。修改后的Q学习目标为:
其中,为目标Q值函数,第二项对应最小化时序差分(TD)误差。
隐式Q学习(IQL)
IQL是一种样本内离线强化学习方法,无需查询分布外动作的Q值,同时仍能改进行为策略。其关键步骤是:通过对数据集中动作的期望分位数回归(expectile regression)拟合状态价值V_ψ,然后将Q_θ向该价值引导。
设δ(s, a) = Q_θ(s, a) - V_ψ(s),定义期望分位数损失(其中η ∈ (0.5,1))。IQL交替执行以下步骤:
该过程实现了无需查询分布外动作的策略改进(策略步骤简化为优势加权回归)。
在与Cal-QL(作为评论家初始化基准)的对比中,本文采用简化版IQL——通过期望分位数回归直接将Q_θ向n步回报引导:
除非特别说明,否则设置η=0.7(IQL研究中证明该值能有效传播高价值信号)。
B.2 PLD的设计选择
本节详细研究使PLD实现数据高效性和高收敛性能的设计选择,所有算法均在LIBERO-90的8个选定任务上评估。
奖励塑造
本文实证分析了简单奖励塑造的影响——具体而言,考虑现有研究中采用的步长生存成本作为奖励偏差。如图12所示:
- 加入轻微奖励偏差影响不大,但能在8个任务中的2个任务上提升收敛速度;
- 过大的奖励偏差会显著损害性能。
因此,本文主要结果未采用奖励塑造。

动作缩放
残差策略的核心组件之一是探索幅度。为避免与基础策略偏离过大导致unlearning,残差动作通常被缩放到[−ξ, ξ]区间。图13对比了不同残差动作缩放比例的效果:
- 训练初期设置过大的ξ会降低早期性能:更新与基础策略偏离过多,导致探索不稳定;
- 过小的ξ会导致探索不足,降低渐近性能。
因此,ξ需要仔细调整,以在支持探索的同时最小化性能下降。对于单臂操作任务,建议在LIBERO中设置ξ=0.5,在SimplerEnv中设置ξ=0.1。

评论家预训练
通过预训练评论家网络实现预热,有利于提升渐近性能并避免初始性能下降,但预训练方法的选择也至关重要。本文对比了CQL、Cal-QL和IQL三种预训练方法,仅使用基础策略的50条成功轨迹(而标准离线强化学习基准通常拥有大得多的数据量)。
如图14所示,利用Cal-QL预训练的评论家网络在在线性能上始终更优,且对保守系数α具有稳健性;CQL性能最差,存在严重的遗忘问题(与现有研究结论一致)。

更新频率
在SERL流程中,数据收集和策略学习异步运行,定期交换网络参数和在线数据。本文消融了更新频率(学习者在与数据收集演员同步参数之间执行的梯度步数),范围从1到500。
如图15所示,整体性能对该超参数不敏感,表明PLD在广泛的同步节奏下均具有稳健性。

On-the-Fly Policy
即时(OTF)策略旨在更有效地最大化价值函数——在时序差分(TD)学习中采样多个动作,并对最大Q值进行引导。本文将OTF应用于PLD,仅从残差策略π_δ中采样多个动作,并以固定基础动作为条件。
图16对比了不同样本量的效果:OTF能提升样本效率,较大的样本量(>20)显示出显著的性能提升,但实证表明渐近性能最终会趋于一致。本文默认设置OTF=1。

JSRL对比
图17进一步展示了JSRL的结果(本文修改了原始实现,采用线性调度器)。JSRL总体上具有较高的样本效率,但在部分任务上无法收敛;而PLD能为所有任务可靠地提供解决方案。

C 实现细节
C.1 强化学习算法
为确保对比公平性,4.1节和B.2节中的所有基准方法均采用相同的网络架构:
- 3层MLP高斯策略;
- 裁剪双Q网络(CDQ),结合层归一化(LayerNorm);
- 演员和评论家均使用预训练的ResNetV1-10编码器提取视觉信息。
详细超参数设置如表5所示。

C.2 SFT
微调OpenVLA或π₀时,采用8×NVIDIA L40 GPU进行LoRA微调(秩为32)。对于π₀和OpenVLA-OFT,均使用其开源代码库中的默认超参数。
D 真实世界实验
D.1 实验设置
本文在真实世界的7自由度Franka Emika Panda机械臂上部署PLD,末端执行器增量位姿控制频率为20 Hz。机器人配备:
- 1个腕部相机;
- 1个侧视相机;
- 本体感知传感器(作为输入)。
对于每个任务,通过收集小规模成功和失败状态数据集,预训练独立的二元奖励分类器。模型结构遵循现有研究设置,采用预训练ResNet-10和3层MLP模型;通过增加假阳性样本增强数据,确保分类器在每个任务上的成功率达到99%。
由于使用3D打印桌面,拾取立方体任务无需环境重置——PLD能自动执行重置、残差强化学习训练和SFT,无需人工监督。对于插销插入任务(如图9所示),需要人类监督员随机移动孔位以增加多样性。
D.2 泛化性能
本文在π₀上进行SFT(基于“拾取蓝色立方体(整洁环境)”和“插销插入”数据),并在以下任务上评估微调后的策略:
- 拾取蓝色立方体(杂乱环境);
- 拾取红色立方体(杂乱环境)。

表6结果表明:基于PLD数据的VLA微调在泛化性能上优于基于人类遥操作数据的微调。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

1135

被折叠的 条评论
为什么被折叠?



