ConRFT——Consistency Policy下RL微调VLA的方法：离线通过演示数据微调(结合Q损失和BC损失)，后在线RL微调，且引入人工干预

原创已于 2025-09-24 00:07:55 修改 · 4.2k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#ConRFT #HIL-ConRFT

于 2025-09-10 00:32:23 首次发布

精密插拔与装配：从RL、VLA(含力/触)到RL微调VLA 专栏收录该内容

17 篇文章

订阅专栏

前言

过去一年多，我自己读了200来篇具身paper，博客内解读的具身paper也有大几十篇了(具体多少篇，还没实际统计)

读多了，便会慢慢的发现一些规律，比如

IL VLA RL各有神通(单纯的IL 比如ALOHA，学习起来足够快；单纯的VLA 可推理解析、泛化性强；单纯的RL 精准度搞)，更可以彼此结合

IL + VLA，学得快且泛化
比如微调π0/openpi做智能分拣
IL + RL，学得快且准
比如hil-serl
再比如以人类动作为参考(模仿)，然后RL训练的ASAP、H2O等
IL + VLA + RL 既快且泛化又准且可触觉

最终，技术的大融合是通用具身发展的大趋势

对于工厂里机械臂的智能化改造，很显然，如果用单纯RL的话，其准度不错，但泛化性不行，如果想兼具精准度和泛化性，RL微调vla 最合适

故我相信，RL结合VLA的方法，很快会成为工厂里智能机械臂的主流落地方法

总之，如此文开头所说的

对于孔较大的，vla + 触觉基本可以解决
对于孔比较细的
$\rightarrow$ 1 单纯RL hil-serl可以，但对环境过于挑剔，泛化性不足

$\rightarrow$ 2 故如果想兼具精准度和泛化性，RL微调vla 暂时最合适

如此，便关注到了一系列RL与VLA结合的方法，比如本文要解读的ConRFT

第一部分 ConRFT：一种通过一致性策略强化微调的视觉-语言-动作模型方法

1.1 引言、相关工作

1.1.1 引言

如ConRFT原论文所说，目前，基于人类远程操作数据对VLA模型进行有监督微调（SFT）仍是主要的适应方法，但这一过程面临诸多挑战：模型性能极度依赖于任务特定数据的质量和数量

然而，这些由人类采集的数据集由于存在次优数据和动作不一致等固有问题，往往无法持续提供最优轨迹[6-RLDG]

大型语言模型（LLMs）和视觉语言模型（VLMs）取得的重大进展凸显了强化学习作为弥合策略能力与人类偏好之间差距的有力工具的价值
7-Deep reinforcement learning from human preferences
8-instructGPT
9-ReFT: reasoning with reinforced fine-tuning

或
用于提升模型推理能力[10-Iterative reasoning preference optimization]

此外，将强化学习应用于特定任务的再从在线交互数据中学习奖励函数也是一个有前景的方向
11-Is reinforcement learning (not) for natural language processing: Benchmarks, baselines, and building blocks for natural language policy optimization
12-DigiRL: training in-the-wild device-control agents with autonomous reinforcement learning
13-Grounding large language models in interactive environments with online reinforcement learning
然而，将这些见解扩展到VLA模型时会面临独特的挑战，因为与LLM不同，VLA模型在现实世界的机器人任务中需要直接的物理交互
由于在接触丰富环境中收集数据存在安全性和成本限制，因此需要高样本效率和风险感知的探索，这使得RL的直接应用变得不可行
近期的研究尝试利用RL来应对SFT中遇到的挑战
6-RLDG: robotic generalist policy distillation via reinforcement learning
14-Policy agnostic RL: offline RL and online RL fine-tuning of any class and backbone，详见policyagnosticrl.github.io

但这些方法主要聚焦于通过RL进行数据增强或质量提升，而非直接通过RL目标优化VLA模型
这限制了策略探索示范数据集之外状态的能力，从而削弱了基于RL微调在实际场景中的潜在优势

注意了，为了利用基于强化学习（RL）的方法，通过在线交互数据高效微调VLA模型，来自1 机器感知与智能系统国家重点实验室-中国科学院自动化研究所、2 中国科学院大学人工智能学院的研究者提出了一种强化微调RFT方法ConRFT，该方法包括离线和在线两个阶段，并采用统一的一致性训练目标

其对应的paper地址为：ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy，Submitted on 8 Feb 2025
其对应的项目地址为：cccedric.github.io/conrft

尽管该设计与现有的离线到在线方法

15-Offline-to-online reinforcement learning via balanced replay and pessimistic qensemble
16-Cal-QL: Calibrated offline RL pre-training for efficient online fine-tuning
17-Efficient online reinforcement learning fine-tuning need not retain offline data

类似，但作者发现专家示范的稀缺性限制了它们在离线训练阶段的性能

受CPQL [18-Boosting continuous control with consistency policy]方法的启发，作者提出了一种统一的训练目标，在离线阶段将有监督学习(行为克隆)与Q学习相结合，并通过一致性策略在在线RL阶段进一步微调VLA模型

在离线训练过程中，作者的方法充分利用现有的示范数据，并能有效处理分布外（OOD）状态，从而在与真实环境交互之前，充分提取策略和价值函数
在随后的在线阶段，通过在Human-in-the-Loop（HIL）学习
19-HG-DAgger: interactive imitation learning with human experts
20-HIL-SERL
框架下，结合CPQL [18]并引入人工干预，利用任务相关的奖励，解决了样本效率和真实环境安全性的两大挑战

1.1.2 相关工作

第一，大模型的强化微调

强化学习（RL）已被广泛应用于大语言模型（LLMs）和视觉语言模型（VLMs）的微调
早期研究主要关注通过人类反馈
7-Deep reinforcement learning from human preferences
8-instructGPT
9-ReFT
21-Open problems and fundamental limitations of reinforcement learning from human feedback
22-Fine-tuning large vision-language models as decision-making agents via reinforcement
learning
进行强化学习，即通过学习人类偏好或集成任务特定奖励(无需明确的人类偏好)

再比如
11-Is reinforcement learning (not) for natural language processing: Benchmarks, baselines, and building blocks for natural language policy optimization
12-DigiRL
13-Grounding large language models in interactive environments with online reinforcement learning
23-PEBBLE: feedback-efficient interactive reinforcement learning via relabeling experience and unsupervised pretraining
虽然许多方法采用了基于策略的算法(如PPO[24])对预训练策略进行微调
12-DigiRL
25-Relay policy learning: Solving long-horizon tasks via imitation and reinforcement
learning
26-DeepSeekMath

但通常需要大量交互数据才能获得理想的性能
27-Efficient online reinforcement learning with offline data，详见此文《RLPD——利用离线数据实现高效的在线RL：不进行离线RL预训练，直接应用离策略方法SAC，在线学习时对称采样离线数据》
28-SELU: selflearning embodied mllms in unknown environments

尽管强化学习在许多领域取得了成功，但它通常是在自生成的合成环境中进行学习，而非真实世界环境。这一差距阻碍了VLA模型的直接迁移，因为这些模型需要与真实世界进行交互

作者的工作通过开发适用于高效真实世界VLA微调的RL框架，旨在弥合这一差距

第二，真实世界的强化学习系统

真实世界的机器人强化学习系统需要能够高效处理高维输入的算法，并且足够灵活以适应诸如奖励设定和环境重置等实际需求[20-HIL-SERL]

已有多项方法已成功在物理环境中直接实现策略学习
29-Reinforcement learning for robot soccer
30-Residual reinforcement learning for robot control
31-SERL
20-HIL-SERL

包括使用离策略
32-Offline meta-reinforcement learning for industrial insertion，项目地址为：sites.google.com/view/offline-metarl-insertion
33-RLIF: interactive imitation learning as reinforcement learning，项目地址为：rlif-page.github.io
34-REBOOT:reuse data for bootstrapping efficient real-world dexterous manipulation
35-Continuously improving mobile manipulation with autonomous realworld RL，项目地址见：continual-mobile-manip.github.io

在策略
36-Dexterous manipulation with deep reinforcement learning: Efficient, general,and low-cost
37-Robot parkour learning
方法

或将“强化学习视为监督学习”
14-Policy agnostic RL
38-Reinforcement learning by reward-weighted regression for operational space con
trol
尽管取得了这些进展，许多真实世界的强化学习系统仍然需要长时间的训练，或依赖大量交互数据[39-The ingredients of real world robotic reinforcement learning]，这在高接触任务中既不切实际又存在风险

与以往从零开始训练的方法不同，作者的工作专注于利用预训练的VLA模型以实现高质量的策略初始化。该方法有效减少了强化学习早期阶段中不必要的探索行为，从而优化了策略学习效率并提升了训练过程中的操作安全性

第三，离线到在线方法

离线到在线强化学习旨在利用离线数据集对策略进行初始化，随后通过在线交互进行微调，以提高样本效率
[15-Offline-to-online reinforcement learning via balanced replay and pessimistic qensemble]

现有工作通常采用离线预训练阶段，随后进行在线微调阶段
15-Offline-to-online reinforcement learning via balanced replay and pessimistic qensemble
40-Reincarnating reinforcement learning: Reusing prior computation to accelerate progress
41-MOTO: offline pre-training to online fine-tuning for model-based robot learning
16-Cal-QL

在训练过程中混合离线和在线数据
这种离线到在线的流程与本文提出的两阶段微调方法类似，即利用预先收集的数据为策略训练提供初始支持，然后在真实世界任务中进一步微调策略
[32-Offline meta-reinforcement learning for industrial insertion]

大多数离线到在线的方法假定可以获得大规模、多样化并且具有足够状态覆盖的数据集
42-Learning complex dexterous manipulation with deep reinforcement learning and demonstrations
43-Overcoming exploration in reinforcement learning with demonstrations

但这一条件在实际部署中很难满足

作者探索将预训练的VLA模型作为基础策略，从而实现高效的样本利用，即使在演示数据极为有限的情况下，也能获得卓越的微调性能

1.1.3 问题设定与预备知识

作者专注于对预训练的VLA模型进行下游任务的微调。具体而言，作者假设可以访问一个预训练的VLA模型 $\pi_{\phi_{\mathrm{pre}}}$ ，该模型能够从视觉输入（例如RGB图像）和语言指令中编码高级表示

在有监督微调（SFT）过程中，作者的目标是在保持模型通用特征提取能力的同时，利用少量带标签的示范数据，将 $\phi_{\text {pre }}$ 适应到目标任务 $\phi$ 上

形式化地，设 $\tau=\left(s_{0}, a_{0}, \ldots, s_{H}\right)$ 为目标任务的轨迹，则VLA模型的微调旨在求解 $\min _{\phi} \mathcal{L}(\tau, \phi)$ ，其中 $\mathcal{L}$ 可以是负对数似然NLL或均方误差MSE，用于衡量预测动作与示范动作之间的差异
该过程使得能够在机器人任务中有效利用压缩的知识，同时引导VLA模型适应下游环境

由于演示通常有限、不一致且次优，导致策略无法覆盖多样的状态，SFT 在现实世界中、接触丰富的机器人任务中表现不佳
为了解决这些问题，作者将每个机器人任务表述为马尔可夫决策过程（MDP），其中RL 的目标是在MDP 中找到最优策略， $\mathcal{M}=(\mathcal{S}, \mathcal{A}, \mathcal{P}, r, \rho, \gamma)$

其中
$s \in \mathcal{S}$ 表示状态空间
$a \in \mathcal{A}$ 表示动作空间
$\mathcal{P}\left(s^{\prime} \mid s, a\right)$ 是依赖于系统动力学的环境转移概率
$\rho(s)$ 表示初始状态分布
$r(s, a)$ 和 $\gamma \in(0,1)$ 分别为奖励函数和奖励折扣因子
策略 $\pi$ 通过最大化奖励的累积期望值进行估计，表示为
$V^{\pi}(s)=\mathbb{E}_{\pi}\left[\sum_{t=0}^{H} \gamma^{t} r\left(s_{t}, a_{t}\right) \mid s_{0}=\right.\left.s, a_{t} \sim \pi\left(s_{t}\right), s_{t+1} \sim p\left(\cdot \mid s_{t}, a_{t}\right)\right]$

给定策略π 的Q 函数表示为
$Q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[\sum_{t=0}^{H} \gamma^{t} r\left(s_{t}, a_{t}\right) \mid s_{0}\right. = \left.s, a_{0}=a, s_{t+1} \sim p\left(\cdot \mid s_{t}, a_{t}\right)\right]$
其中， $H$ 表示轨迹的最大回合步数

通过将VLA 策略与学习到的Q 函数结合，RFT 使VLA模型能够根据试错交互和任务特定反馈优化其行为

1.2 ConRFT的完整方法论：先离线微调，后在线微调

作者所提出的流程 ConRFT 包含两个阶段：离线微调和随后进行的在线微调，用以优化机器人策略，如图1所示

上图展示了作者针对预训练 VLA 模型提出的强化微调方法的架构，该方法包括两个阶段：离线的 Cal-ConRFT 和在线的 HIL-ConRFT，两个阶段均采用统一的一致性训练目标

在离线阶段，仅利用预先收集的演示数据进行微调
在在线阶段，人工操作员可以通过远程操控工具(如 SpaceMouse)对机器人策略进行干预
同时，作者在微调过程中结合使用预收集的演示、策略转移以及人工干预数据

1.2.1 阶段一：使用 Cal-ConRFT 进行离线微调

由于预训练的VLA 模型通常缺乏对新型机器人配置的零样本泛化能力，在离线阶段，坐着专注于使用一个小型、预先收集的离线数据集（20-30 次演示）来训练策略，然后再转入在线强化学习

作者利用预训练的VLA 模型初始化强化学习的策略，既降低了探索负担，也减少了整体在线训练时间
鉴于能够有效利用离线数据的能力，作者选择了Calibrated Q-Learning (Cal-QL) [16] 作为他们的基础离线强化学习方法，因为作者希望Q 函数对分布外(OOD)动作具有鲁棒性
具体来说，Cal-QL 通过减少时序差分(TD)误差和一个额外的正则项，在预先收集的数据集上训练Q 函数
该正则项在分布外动作的Q 值超过参考策略值 $V^{\mu}(s)$ 时进行惩罚，同时对离线数据集中观测到的动作则补偿这种惩罚

Cal-QL 的评论者训练目标如下(定义为方程1)

$\begin{aligned} \mathcal{L}_{Q}^{\text {of fline }}(\theta)= & \alpha\left(\mathbb{E}_{s \sim \mathcal{D}, a \sim \pi(\cdot \mid s)}\left[\max \left(Q_{\theta}(s, a), V^{\mu}(s)\right)\right]\right. \\ & \left.-\mathbb{E}_{s, a \sim \mathcal{D}}\left[Q_{\theta}(s, a)\right]\right) \\ & +\frac{1}{2} \mathbb{E}_{\left(s, a, s^{\prime}\right) \sim \mathcal{D}}\left[\left(Q_{\theta}(s, a)-\mathcal{B}^{\pi} \bar{Q}_{\bar{\theta}}(s, a)\right)^{2}\right] \end{aligned}$

其中

$Q_{\theta}$ 是由θ 参数化的学习Q 函数
$\bar{Q}_{\bar{\theta}}$ 是由 $\bar{\theta}$ 参数化的延迟目标Q 函数
$\mathcal{B}^{\pi} \bar{Q}(s, a)=r(s, a)+\gamma \mathbb{E}_{a^{\prime} \sim \pi\left(\cdot \mid s^{\prime}\right)}\left(\bar{Q}\left(s^{\prime}, a^{\prime}\right)\right)$ 是Bellman 备份算子
$\alpha$ 是用于控制保守惩罚的超参数
$\mathcal{D}$ 是存储示范的缓冲区示范

然而，尽管 Cal-QL 通常能够高效利用离线数据集，但当仅有少量演示数据（例如 20–30 条）时，其在训练有效策略方面表现不佳。在这种情况下，有限的状态覆盖导致价值估计不准确，从而使策略难以泛化到未见过的状态

相比之下，典型的离线强化学习数据集通常由多个行为策略收集，能够提供更广泛的状态覆盖，从而减少分布偏移
由于缺乏这种广度，单靠 Cal-QL 损失可能无法充分引导学习过程，导致性能较差
为了解决这个问题，作者提出在离线训练过程中引入行为克隆（BC）损失
BC损失直接最小化策略生成的动作与演示动作之间的差异。通过引入BC损失，作者鼓励模型模仿演示中的行为，在离线阶段为模型提供额外的监督信号

这有助于VLA模型学习更有效的策略，并在仅有少量演示的情况下初始化一个稳定的Q函数，尤其是在控制精度至关重要的高接触操作任务中

受将BC损失与Q引导结合于一致性目标[18，即CPQL-Boosting continuous control with consistency policy]的启发，作者在离线阶段引入了Cal-ConRFT

该方法采用一致性策略作为动作头，对VLA模型进行微调，旨在解决两个关键问题：

有助于利用预先收集数据中常见的不一致和次优演示
与基于扩散的动作头相比，基于一致性的动作头在推理过程中依然保持计算上的轻量高效[18, 44, 45]
一致性策略是一种基于扩散模型的策略[46-Stabilizing diffusion model for robotic control with dynamic programming and transition feasibility]，它学习将从单位高斯分布中采样的随机动作映射为在当前状态下由专家动作分布生成的动作

对于一致性策略，作者将扩散区间 $[\epsilon, K]$ 离散化为 $M$ 个子区间，其边界为 $k_{1}=\epsilon \leq k_{2} \leq \cdots \leq k_{m}=K$ ，且 $\epsilon=0.002$

具体而言

带有一致性策略作为动作头的VLA 模型表示为(定义为方程2)：
$\pi_{\psi}(a \mid s)=f_{\psi}\left(a^{k}, k \mid E_{\phi}(s)\right)$
其中， $f$ 表示以 $\psi$ 为参数的一致性策略，下标 $k$ 表示扩散步数， $a^{k} \sim \mathcal{N}(0, k I)$ ，而 $E_{\phi}(s)$ 表示以 $\phi$ 为参数的预训练VLA 模型的编码状态
用于VLA 模型微调的一致性训练目标如下(定义为方程3)：
$\mathcal{L}_{\pi}^{\text {of fline }}(\psi)=\beta \mathcal{L}_{\pi}^{B C}+\eta \mathcal{L}_{\pi}^{Q}$

其中
BC 损失 $\mathcal{L}_{\pi}^{B C}=\mathbb{E}_{(s, a) \sim \mathcal{D}, m \sim \mathcal{U}[1, M-1]}\left[d \left(f_{\psi}(a+\right.\right.\left.\left.\left.k_{m} z, k_{m} \mid E(s)\right), a\right)\right]$ , $z \sim \mathcal{N}(0, I)$ , $d$ 表示欧氏距离 $d(x, y)=\|x-y\|_{2}$

而Q损失 $\mathcal{L}_{\pi}^{Q}=-\mathbb{E}_{s \sim \mathcal{D}, a \sim \pi_{\psi}}[Q(s, a)]$
$\beta$ 和 $\eta$ 是用于平衡BC 损失和Q损失的两个超参数

这种组合能够实现高效的策略学习和稳定的价值估计，即使在只有少量示范的情况下，通过使价值估计与专家动作对齐，并在离线训练期间提升策略性能

此外，它为在线阶段提供了可靠的初始化，从而促进了安全且有效的探索

conRFT 的完整流程如算法 1 所示

1.2.2 第二阶段：利用 HIL-ConRFT 进行在线微调

虽然离线阶段通过一小部分示范数据提供了初始策略，但其性能受限于预先收集的示范的范围和质量

因此，作者引入了带有HIL-ConRFT 的在线阶段，在该阶段中，VLA 模型通过一致性策略与真实环境交互，从而在在线过程中进一步微调
在在线训练过程中，离线阶段的示范缓冲区 $\mathcal{D}$ 被保留
此外，作者还设置了一个回放缓冲区 $\mathcal{R}$ 用于存储在线数据

然后实现对称采样[27]，即对于每个批次，从这两个缓冲区中均匀采样以组成每个训练批次
这个流程，和HIL-SERL是一致的

由于VLA 模型会根据当前策略不断收集新的转移，数据分布会随着策略自然演化。这种持续的交互减少了离线阶段面临的分布转移问题

因此

作者对在线评论者的更新使用了标准的Q 损失(定义为方程4)：
$\mathcal{L}_{Q}^{\text {online }}(\theta)=\mathbb{E}_{\left(s, a, s^{\prime}\right) \sim(\mathcal{D} \cup \mathcal{R})}\left[\left(Q_{\theta}(s, a)-\mathcal{B}^{\pi} \bar{Q}(s, a)\right)^{2}\right]$
VLA 模型微调的一致性训练目标如下所示(定义为方程5)：
$\mathcal{L}_{\pi}^{\text {online }}(\psi)=\beta \mathcal{L}_{\pi}^{B C}+\eta \mathcal{L}_{\pi}^{Q}$

其中
BC loss $\mathcal{L}_{\pi}^{B C}=\mathbb{E}_{(s, a) \sim(\mathcal{D} \cup \mathcal{R}), m \sim \mathcal{U}[1, M-1]}\left[d \left(f_{\psi}(a+\right.\right.\left.\left.\left.k_{m} z, k_{m} \mid E(s)\right), a\right)\right]$ , $z \sim \mathcal{N}(0, I)$ , $d$ 表示欧氏距离 $d(x, y)=\|x-y\|_{2}$
而Q损失 $\mathcal{L}_{\pi}^{Q}= -\mathbb{E}_{s \sim(\mathcal{D} \cup \mathcal{R}), a \sim \pi_{\psi}}[Q(s, a)]$

请注意，上述方程5的目标与离线阶段的方程3 高度相似，使得能够快速适应在线微调

用于VLA 模型微调的一致性训练目标如下(定义为方程3)：

$\mathcal{L}_{\pi}^{\text {of fline }}(\psi)=\beta \mathcal{L}_{\pi}^{B C}+\eta \mathcal{L}_{\pi}^{Q}$

其中

BC 损失 $\mathcal{L}_{\pi}^{B C}=\mathbb{E}_{(s, a) \sim \mathcal{D}, m \sim \mathcal{U}[1, M-1]}\left[d \left(f_{\psi}(a+\right.\right.\left.\left.\left.k_{m} z, k_{m} \mid E(s)\right), a\right)\right]$ , $z \sim \mathcal{N}(0, I)$ , $d$ 表示欧氏距离 $d(x, y)=\|x-y\|_{2}$
而Q损失 $\mathcal{L}_{\pi}^{Q}=-\mathbb{E}_{s \sim \mathcal{D}, a \sim \pi_{\psi}}[Q(s, a)]$
$\beta$ 和 $\eta$ 是用于平衡BC 损失和Q损失的两个超参数

通常，在在线阶段作者会减少BC 损失权重 $\beta$ ，同时增加Q 损失权重 $\eta$ ，但作者保持BC损失有两个主要原因

首先，它确保策略持续与示范数据保持一致，防止出现剧烈偏离，从而避免性能崩溃。这对于保持接触丰富操作任务中动作的质量非常重要，因为策略的突然变化可能导致不安全或低效的行为
其次，由于强化学习本质上涉及探索，在高维状态-动作空间中容易变得不稳定。通过对探索过程提供稳定作用[48]，BC损失防止策略过度偏离其离线基线，从而降低出现低效或不安全行为的风险
这一方面在真实世界的机器人训练中尤为重要，尤其是在物理环境下，不安全的动作可能导致损坏或其他危险

此外，作者通过人类在环学习（Human-in-the-Loop，HIL）将人为干预集成到在线阶段

具体而言，HIL 学习允许人类操作员在探索过程中及时进行干预，提供纠正性操作，从而接管机器人对VLA 模型的控制

这些人工修正被添加到演示缓冲区D 中，提供高层次的指导，使探索朝着更安全、更高效的方向发展[49]。当机器人出现破坏性行为，如碰撞障碍物、施加过大力量或破坏环境时，人为干预是必不可少的
除了确保安全探索外，人为干预还加快了策略的收敛速度。在策略将机器人引入不可恢复或不理想状态，或当机器人陷入局部最优且在没有外部协助的情况下需要大量时间和步骤才能克服时，人类操作员可以介入，纠正机器人的行为，并引导其朝着更安全、更有效的方向发展
这样可以实现稳定的学习过程，使VLA 模型的微调比单靠自主探索更快、更安全

1.3 实验与结果

1.3.1 实验概述

实验旨在评估他们方法在实际场景中对VLA模型微调的有效性和效率

为此，作者在八项多样化的操作任务上进行了真实环境实验，如图2所示

这些任务涵盖了多种操作挑战，包括

物体放置任务（如将面包放入烤面包机和将面包放在白色盘子上）
精确且接触丰富的操作（如对齐并将轮子插入椅子底座）
以及动态物体处理(如悬挂中国结)

为了验证他们的微调方法，作者选择了Octo-small模型[47]，该模型在性能与推理效率之间具有良好平衡，并在7自由度的Franka Emika机械臂上采用一致性策略[45]作为动作头

对于所有任务
状态观测包括来自腕部摄像头的两张RGB 图像（128 × 128）和侧面摄像头（256 × 256），结合机器人手臂的本体状态，包括末端执行器的位姿、扭转、力/力矩以及夹爪状态

动作空间被定义为下游阻抗控制器的6 维末端执行器增量位姿，或对于涉及抓取的任务，额外包括1 维二元夹爪动作的7 维目标

数据采集和策略以10Hz 的频率下达动作
在训练之前，从人类操作员收集正负示范，以训练一个二元分类器，为每个任务提供该任务是否成功完成的二元反馈
此外，每个任务的初始状态通过脚本化的机器人运动或人类操作员手动复位进行随机化
作者在真实环境实验中给出了每个任务的描述，并在附录B 中提供了有关实验任务、训练和评估流程的更多细节

1.3.2 实验结果

本节将展示所有任务的实验结果，如图2所示

针对每个任务，作者在表I中报告了结果指标，包括成功率、回合长度和总训练时间。训练时间涵盖了脚本动作执行、策略回放以及板载计算的持续时间，所有实验均在NVIDIA RTX A6000 GPU上完成

在离线阶段，作者对比了Cal-ConRFT和SFT，其中SFT采用NLL损失进行行为克隆[47]
在在线阶段，我们将HIL-ConRFT与多个基线方法进行了对比，包括
HG-DAgger[19-HG-DAgger: interactive imitation learning with human experts]，该方法通过引入人工修正并采用监督学习微调策略；
PA-RL[14-Policy agnostic RL: offline RL and online RL fine-tuning of any class and backbone]，该方法通过策略无关的Q函数优化动作，并利用优化后的动作通过监督学习微调策略

且作者还比较了HIL-SERL[20]，该方法从零开始通过人工干预训练RL策略
以及RLDG[6]，该方法利用RL策略收集的演示，结合SFT[47]对VLA模型进行微调

首先，1）ConRFT优于监督学习方法

作者在表I中比较了不同的监督学习与强化学习方法，并在图3中展示了相应的在线学习曲线。他们宣称他们的方法ConRFT在所有任务中实现了最高的平均成功率，在45到90分钟的真实环境训练后，平均成功率达到96.3%，比监督学习基线提升了144%

它优于当前最先进的方法，如HG-DAgger和PA-RL，后者的平均成功率分别为65%和71.3%
HG-DAgger虽然通过人类修正以监督学习方式微调VLA模型，但由于人类修正存在次优性和不一致性，未能实现显著的策略提升，甚至在某些任务上出现性能下降。例如，在需要精确、细致操作的高接触任务（如插轮和挂中国结）中，HG-DAgger在在线微调后策略提升有限
具体来说，在挂中国结任务中，对柔性物体的精细操作需要持续且精确的控制。人类修正中固有的变化性（如插入角度的差异）会为训练过程引入噪声和冲突信息，这种不一致性阻碍了策略对精确灵巧行为的学习
此外，接触动力学的复杂性导致策略的微小偏差也会引起显著的性能下降，进一步加剧了不一致人类修正带来的挑战
在没有人工纠正的情况下，PA-RL 提供了一种通过 Cal-QL 训练的与策略无关的 Q 函数进行直接动作优化
PA-RL 通过基于奖励信号优化动作，克服了人为纠正的次优性，并在诸如“取香蕉”和“放勺子”等简单任务中展现出更稳定的策略提升

然而，在需要精确、细致操作的高接触任务（如“插轮子”）中，PA-RL 未能提升策略性能。在“插轮子”任务中，精确对齐和受控插入力至关重要

然而，由于演示缓冲区和回放缓冲区中的状态覆盖有限，与策略无关的 Q 函数难以有效泛化到不同的轮子和槽位位置。这限制了策略处理插入所需微小状态转变的能力，导致在复杂操作场景下表现次优
因此，尽管PA-RL 在简单环境中展现出一定潜力，但在需要高精度和灵巧性的复杂任务中仍难以扩展

作者认为，这些观察结果突显了他们所提出方法的优势，该方法能够有效缓解因人为修正不一致和强化学习状态覆盖有限所带来的问题

而ConRFT能够高效且安全地探索广泛的状态空间，并利用任务特定奖励直接优化策略，从而展现出较高的样本效率，并减轻了人为修正不一致所带来的影响。这种稳定性和性能进一步证明了他们方法在克服现有微调方法在实际机器人应用中的局限性方面的有效性

此外，评估策略性能的另一个关键指标是回合长度，它表示策略完成任务所需的总步数。如表 I 所示，经过 HIL-ConRFT 微调的 VLA 模型平均回合长度为 30.7 步，比离线基线短 1.9 倍

相比之下，HG-DAgger 的平均回合长度为 56.3 步，仅比离线基线短 1.1 倍
同样，PA-RL 的平均回合长度为 51.1 步。由于其策略无关的 Q 函数具有保守特性，缺乏策略探索能力，因此无法有效优化完成任务的速度或尝试更高效的行为

其次，2）微调VLA优于从零开始训练

从零开始的强化学习通常需要大量与环境的交互和频繁的人为干预，这会导致训练过程冗长且安全风险较高
例如，HIL-SERL [20] 是一种通过强化学习从零开始并结合人为干预训练策略的方法，在与他们方法相同的训练时间内未能收敛到有效的策略，平均成功率仅为31.9%，如表II所示
图3中的学习曲线显示，HIL-ConRFT在在线阶段能够持续提升策略性能

虽然HIL-SERL最终也能获得最优策略，但通常需要超过两小时的在线训练，并且每个任务都需要更高频率的干预，导致在探索过程中（如与环境发生碰撞）出现更多破坏性行为，尤其是在训练初期

相比之下，从预训练的VLA模型出发并进行离线微调，可以减少在线训练时间并提高样本效率。在离线初始化策略的基础上，ConRFT加速了策略收敛并提升了最终性能
因此，通过一致性策略微调VLA模型，使其能够比完全从零开始训练更快、更少干预地达到更高的成功率，充分展示了在实际机器人应用中利用预训练VLA模型的优势

最后，3）分析

a) 为什么要从 Cal-ConRFT 微调，而不是从 SFT或 Cal-QL 微调？如表 I 所示，作者观察到在离线阶段，Cal-ConRFT 的性能与 SFT 基线相似
这一现象引发了一个问题：为什么在离线阶段要引入 Q 损失？

原因在于，如果离线阶段仅依赖SFT，微调后的策略虽然能从模仿学习中获益，但在面对离线数据集中未覆盖的状态和动作时，可能需要大量的在线微调
而在离线阶段引入 Q损失，可以让早期的 Q 值估计为策略改进提供初始值，从而在在线微调时实现更快的适应
这种方法有助于解决潜在偏差，并确保更稳定的学习

此外，在演示样本较少的场景下，作者发现仅依赖 Cal-QL 无法训练出有效的策略，所有任务的成功率均为 0%
数据的不足影响了策略对Q 值的准确估计，导致离线阶段表现较弱，且在线阶段的训练时间更长

作者在两个具有代表性的任务上，对比了从 Cal-ConRFT 和 SFT 基线出发的在线微调曲线，以进一步探究引入 Q 损失的影响，如图4 所示
尽管两条曲线的初始成功率相近，但从 SFT 基线训练时观察到更高的干预率，表明 SFT 训练得到的策略在在线训练早期阶段存在严重的策略遗忘现象
这表明，Cal-ConRFT 在离线阶段利用 Q 损失，能够加快在线学习过程的适应速度，使得仅用少量演示数据即可实现更有效且更稳定的策略改进
b）增加演示次数是否提升SFT的策略表现？：通常，在一次在45-60分钟的在线微调阶段，策略大约收集了80到120条成功和失败的轨迹

作者宣称，为确保他们的方法与监督训练方法的公平对比，他们进一步在三个具有代表性的任务上，使用150条演示数据，比较了Diffusion Policy（DP）[50]和监督微调VLA [47]的训练效果，这与他们方法所使用的演示数据总量保持一致

此外，作者还比较了RLDG [6]与利用RL策略收集的150条演示数据进行微调的表现。如表III所示，尽管DP和SFT受益于更多的演示数据，其成功率仍未能达到他们方法的表现，尤其是在如插入轮子这类接触丰富的任务上
这表明，仅通过监督学习增加由人类收集的演示数据，并不能保证性能提升，因为人类演示数据中固有的不一致性和次优动作。同时，RLDG利用由RL策略收集的最优数据获得了更高的成功率，说明这些RL收集数据的一致性能够提升最终性能

另一方面，作者的方法直接通过优化基于一致性的训练目标对策略进行微调，从而实现了最高的成功率
c）ConRFT在多种VLA模型中的实用性：ConRFT具有高度的通用性，可以应用于任何基于VLM架构并带有动作头的模型。这种灵活性源于其能够独立于底层视觉编码器优化动作生成过程，从而适配多种VLA框架

为了进一步验证其适用性和泛化能力，他们在RoboVLM [51]的微调实验中，采用了两种不同的VLM主干结构
如表IV所示，结果表明ConRFT能够有效提升多种VLA的性能，在多个机器人任务中提高成功率。这种在利用预训练视觉组件的同时微调动作生成能力，凸显了ConRFT的广泛适用性

1.4 局限性与结论

尽管他们的方法在实际操作任务中对VLA模型进行微调时表现出较强的性能和样本效率，但仍存在一些局限性

1.4.1 对奖励工程的敏感性

在本研究中，作者实现了一个针对特定任务的二元分类器，用于计算强化学习（RL）的奖励。然而，分类器训练数据与强化学习探索过程中生成的状态-动作分布之间固有的分布偏移，带来了关键的脆弱性，因为这可能导致学习到的策略出现奖励操纵，利用分类器提供不准确奖励的非预期行为

例如，机器人可能将末端执行器移动到某个特定位置，从而触发误报，导致策略收敛到错误的行为。由于这些奖励分类器通常只提供稀疏反馈，即使有人工干预，策略的学习速度依然可能较慢
另一方面，这种以奖励驱动的方法会产生高度专用的策略，强烈依赖于任务的具体条件，限制了其在新环境中的泛化能力
虽然引入多任务密集奖励信号可以提升样本效率并加速策略收敛，但这也对实际应用中的奖励工程提出了更高的复杂性要求

1.4.2 冻结编码器与Transformer主干网络

作者目前的实现将交互和策略学习过程分别在不同线程中运行，仅对动作头网络进行一致性策略微调，同时保持视觉编码器和Transformer主干网络冻结

尽管这种设计选择提升了实时性能，但也限制了策略在在线训练过程中对感知与表征模块的进一步优化能力，尤其是在面对未见过的场景时。允许对这些冻结组件进行部分或全部更新，例如采用参数高效微调技术（如LoRA[52]），有望在不牺牲安全性或速度的前提下，提升最终任务性能与适应性

总之，作者提出了一种两阶段方法 ConRFT，用于在实际机器人应用中对 VLA 模型进行强化微调

首先，通过少量演示进行离线微调（Cal-ConRFT），作者利用将 Q 损失与 BC 损失整合到一致性框架中的统一训练目标，初始化了可靠的策略和价值函数
随后，在在线微调阶段（HIL-ConRFT），结合任务特定奖励和人工干预，通过一致性策略对 VLA 模型进行微调

针对八项不同实际任务的实验表明，作者的方法在成功率、样本效率和回合长度方面均优于当前最先进方法。总体而言，本工作展示了利用强化学习对 VLA 模型进行安全高效微调的实用方法

// 待更