GT-RL：首个让机器人学会系鞋带的VLA

GR-RL：首个多鞋眼穿带机器人

最新推荐文章于 2025-12-05 14:03:28 发布

原创最新推荐文章于 2025-12-05 14:03:28 发布 · 884 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#机器人 #人工智能 #计算机视觉 #具身智能 #大模型 #VLA #智能硬件

多模态大模型同时被 3 个专栏收录

27 篇文章

订阅专栏

机器人

4 篇文章

订阅专栏

具身智能

3 篇文章

订阅专栏

AgenticCoding·十二月创作之星挑战赛 10w+人浏览 170人参与

1.简介

当AI在图像生成、语言理解领域不断刷新我们的认知时，机器人操作领域却始终面临一个棘手的挑战：如何让机器人像人类一样，从容应对那些需要“长程规划+毫米级精度+柔性交互”的复杂任务？比如系鞋带这个看似简单的动作，要拿起柔软易变形的鞋带、精准对准细小的鞋眼、连贯完成多步穿拉流程，每一个环节都在考验机器人的“灵巧度”与“稳健性”，而这正是长期以来机器人落地真实场景的难点所在。

近日，字节跳动（ByteDance Seed）团队提出的GR-RL框架，为这一难题交出了亮眼的答卷。这项研究不仅让机器人首次实现了“自主系鞋带”，且成功率达到83.3%，更重要的是，它构建了一套完整的解决方案，能将通用的视觉-语言-动作（VLA）模型（如字节此前的GR-3）转化为专注长程精密操作的“专家型政策”，为机器人在真实世界中可靠工作提供了关键思路。

论文地址：[2512.01801] GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

项目主页：字节跳动Seed

2.论文详解

简介

当前VLA模型凭借大规模数据训练，已展现出在不同物体、环境和语义概念间的泛化能力，能响应自然语言指令完成多种基础操作，且机器人领域正像视觉-语言模型一样，从“规模效应”中获得进步。

但模型的“通用性”并不等同于真实世界部署所需的“可靠性”，当前VLA政策在落地时存在两个关键不足：一是面对可变形物体的毫米级控制问题尚未解决，缺乏兼具灵巧性与精度的操作能力；二是在长步骤任务中存在误差累积现象，且这种现象在高精密灵巧操作场景下会进一步加剧。以系鞋带任务为例，该任务既要求机器人灵活处理鞋带、鞋子这类可变形物体，又需要毫米级精度将鞋带穿入鞋眼，还需应对多步骤中的突发情况，恰好对应了VLA政策的上述短板。

本文研究以GR-3这一大型VLA政策为起点，该政策通过互联网数据、机器人轨迹和人类演示训练而成，虽有较强泛化能力，但在精度、灵巧性和长程稳健性相关场景中表现不佳，而导致这一问题的核心原因有两方面：一方面是高精密操作场景下，人类远程操作者会因谨慎放慢动作、犹豫甚至失误，使演示数据混入大量噪声和非最优行为；另一方面是离线训练时模型学习的是人类演示中固定长度的动作块，而部署时为保证动作平滑会采用时间集成、异步滚动时域控制等系统级优化，导致训练所学动作与实际执行动作出现偏差。

本文提出的GR-RL框架设计了强化学习增强的多阶段训练流程，通过过滤次优演示、增强数据泛化性、在线对齐部署行为，将通用VLA政策转化为适用于长程灵巧精密操作的专家政策，并指出GR-RL是目前首个能自主完成多鞋眼穿鞋带任务的学习型政策，成功率达83.3%，同时希望这一框架能为通用机器人基础模型向真实世界可靠专家模型转化提供可行路径。

模型架构

GR-RL的整体架构设计是通过“混合Transformer（MoT）架构”整合视觉-语言-动作（VLA）能力与强化学习评估机制，构建包含策略网络 $\pi_{\theta}$ 和多任务评论家网络 $Q_{\phi}$ 的双模块结构，总参数量达50亿，最终实现对双机械臂移动机器人的精准控制与动作评估，为后续多阶段训练提供基础模型支撑。

策略网络 $\pi_{\theta}$ ：

核心功能是控制双机械臂移动机器人，生成固定长度的动作块 $a_{t}=a_{t:t+k}$ 以完成指定任务。其输入包含三部分：自然语言指令（如“将鞋带穿入左侧鞋眼”）、当前环境观测（ $o_{t}$ ，如RGB图像）、机器人自身状态（ $s_{t}$ ，如关节角度、腕部位置）。
其动作生成过程严格遵循“输入-处理-输出”的逻辑：首先以Qwen2.5-VL-3B-Instruct作为视觉-语言模型（VLM）骨干，处理语言指令与视觉观测，提取包含语义与空间信息的融合特征；随后接入动作扩散Transformer（DiT），基于流匹配目标训练生成动作块——这种扩散模型的优势在于能生成平滑、连续的动作序列，避免传统离散动作生成的突变问题；同时，为提升推理速度，模型仅使用VLM后半层的KV缓存，在不损失精度的前提下减少计算量，确保机器人能实时响应环境变化。

评论家网络 $Q_{\phi}$ ：

承担动作评估与任务进度反映的角色，其输入与政策网络一致（观测 $o_{t}$ 、语言指令 l、机器人状态 $s_{t}$ 、动作块 $a_{t}$ ），输出对应动作块的Q值分布以评估动作的价值。
该网络采用因果Transformer结构，遵循“Q-chunking”策略，为每个动作块预测一整段Q值，而非单一时间步的价值，这种设计更适配政策网络生成的“动作块”模式，确保价值评估与动作生成的粒度一致。
尤为关键的是，评论家网络采用分布型强化学习框架，将Q值视为有明确上下界（0到1）的离散分布，而非传统无界回归值——这一设计让Q值天然具备“任务进度指示器”的功能：Q值接近1表示动作对任务成功贡献大、进度推进明显，接近0则表示动作无效或导致任务偏离，同时离散分布的特性能捕捉真实世界轨迹中的不确定性，避免传统回归型评论家在稀疏奖励场景下的价值过估计问题，让评估结果更稳健。

训练策略

长程灵巧高精度机器人操作任务中，人类演示数据存在固有缺陷，且机器人部署时的系统优化对这些缺陷有放大效应，二者共同导致依赖传统模仿学习的机器人政策难以在真实场景中稳定工作。

人类演示数据本身存在质量问题——并非所有人类演示的动作都是最优的，且包含大量无意义的噪声。这种问题在长程灵巧高精度操作场景下会被进一步凸显：人类远程操作者（如控制机械臂完成系鞋带任务）为避免失误，常会刻意放慢动作、反复微调甚至停顿，这些犹豫行为并非完成任务的必要步骤；同时，即使是经验丰富的操作者，在多步骤、高精密的操作中也难免出现偶发失误，比如鞋带从机械爪中滑落、穿错鞋眼位置；此外，长程任务中操作者的行为一致性难以保证，受疲劳、注意力波动等因素影响，相同步骤的动作轨迹可能差异显著，这些犹豫、失误与不一致的行为，共同构成了演示数据中的“次优性”与“噪声”。
即便演示数据理想，机器人部署时的系统级优化仍会打破“训练所学动作”与“实际执行动作”的一致性。这类优化的典型例子包括全身体滚动时域控制和时间集成：全身体滚动时域控制会在部署时实时优化机器人未来一段时间的动作轨迹，比如为避免机械臂抖动，将训练中学习的“快速对准鞋眼”动作调整为“缓慢平稳移动”；时间集成则会对连续多帧的预测动作取平均，以减少动作随机性，比如将训练中“向左移动2mm”与“向左移动4mm”的预测动作，实际执行为“向左移动3mm”。这些优化虽能提升机器人运动的平滑性与稳定性，却导致训练阶段政策学习的“原始动作序列”，与部署阶段实际执行的“优化后动作”产生偏差，形成“训练-部署不匹配”。
这种不匹配的后果就是它会让人类演示数据中的次优性负面影响被进一步放大。例如，演示数据中本就存在“对准鞋眼时轻微偏移”的次优动作，训练时政策已初步学习到这种偏差，而部署时系统优化带来的动作调整，会让这种偏移进一步扩大，最终导致鞋带完全无法穿入鞋眼；又如，演示数据中操作者犹豫时的“无效微调”，会让政策学习到冗余动作，部署时的轨迹平滑优化则可能让这些冗余动作持续更长时间，降低任务效率甚至引发新的失误。

稀疏奖励

次优的轨迹可能会引入更多的主观和噪声人类先验。因此提出通过学习型评估器替代人工，实现客观高效的数据过滤。其核心思路是通过离线强化学习训练一个 “任务进度评估器”，自主识别并剔除演示数据中对任务无正向贡献的无效样本，为后续训练提供高质量数据基础。

公式1的核心作用是定义稀疏奖励函数，为离线强化学习（RL）训练分布型评论家 $Q_{\phi}$ 提供监督信号，进而让评论家能学习到反映“动作对任务进度贡献度”的Q值：

$r(\mathbf{o}_t, l, \mathbf{s}_t, \mathbf{a}_t) = \begin{cases} \gamma^{T-t} \mathbb{I}(\tau), & t > T-k, \\ 0, & t \leq T-k, \end{cases}$

其中各符号的具体定义与功能如下：

$r(\cdot )$ ：表示某条轨迹 $\tau$ 对应的总奖励值，是稀疏奖励函数的输出结果，其数值大小直接反映轨迹对任务成功的贡献程度；
$\mathbb{I}(\cdot)$ ：即指示函数，是奖励“稀疏性”的核心来源——若括号内的“轨迹 $\tau$ 成功完成任务”这一条件成立， $\mathbb{I}(\cdot)$ 输出1；若条件不成立（轨迹失败），则输出0；
$success(\tau)$ ：判定轨迹 $\tau$ 是否成功的逻辑条件，在GR-RL的系鞋带任务中，具体指“鞋带被精准穿入正确鞋眼，并完全放置在桌面上”，只有满足这一条件的轨迹才被视为成功；
$\gamma$ ：折扣因子，取值范围通常为 [0,1]，核心作用是“衰减长轨迹的奖励权重”，避免因轨迹长度差异导致奖励值波动过大；
T：表示轨迹 $\tau$ 的长度，即从任务开始到结束所包含的动作步数（或时间步）。

首先，我们需要了解什么是稀疏奖励。稀疏奖励” 是一种奖励信号设计方式，核心特点是仅在任务达成关键目标（如最终成功）或出现重大失败时才给予非零奖励，而在任务的绝大多数中间步骤中，奖励均为零或无明确反馈—— 这种 “非连续、少频次” 的奖励发放模式，与 “稠密奖励”（每一步都给予反馈）形成鲜明对比。

从功能逻辑来看，公式1的设计完全适配GR-RL的“长程灵巧高精度操作”场景：

一方面，长程任务（如系鞋带需完成“拾鞋带→穿多鞋眼→交接→拉拽”多步骤）中，中间步骤的“部分成功”难以定义——例如“对准鞋眼但未穿入”虽比“未对准”更接近目标，却未真正推进任务，若给予“部分奖励”（如0.5），会导致评论家误判“无效动作的价值”。而公式1仅以“最终是否成功”为奖励标准，彻底规避了“主观定义中间奖励”的难题，让评论家只能通过对比“成功轨迹与失败轨迹的动作差异”，自主学习到“哪些动作能导向任务成功”。
另一方面，公式中的 $\gamma^T$ （折扣因子的轨迹长度次方）是平衡不同长度成功轨迹的关键设计：若两条轨迹均成功（ $\mathbb{I}(\cdot)=1$ ），但轨迹1长度 $T_1=100$ 、轨迹2长度 $T_2=200$ ，则轨迹1的奖励 $r(\tau_1)=\gamma^{100}$ ，轨迹2的奖励 $r(\tau_2)=\gamma^{200}$ 。由于 $\gamma \in [0,1]$ ， $\gamma^{100} > \gamma^{200}$ ，这意味着“更短的成功轨迹”会获得更高奖励——本质是引导评论家优先学习“高效动作模式”（如“快速精准对准鞋眼”而非“缓慢反复微调”），进一步提升过滤后数据的质量。

本文使用公式1训练评论家：将包含“成功轨迹”和“人工生成的失败轨迹”的数据集输入TD3+BC算法，用公式1计算每条轨迹的奖励，训练分布型评论家 $Q_{\phi}$ 。具体来说，通过“时序差分学习（temporal difference learning）”训练评论家 $Q_{\phi}$ ：将增强后的“成功轨迹+失败轨迹”作为训练数据，采用时序差分算法更新评论家参数——该算法的核心是通过“当前时刻价值预测”与“未来时刻价值预测的折扣值”之间的差异（TD误差）优化模型，让 $Q_{\phi}$ 逐渐学会判断“当前动作对后续任务进展的影响”。由于训练数据同时包含成功与失败案例， $Q_{\phi}$ 不仅能识别“推动任务的有效动作”（如精准对准鞋眼），还能捕捉“导致失败的无效动作”（如犹豫微调、鞋带滑落），最终具备“稳健评估任务进度”的能力，而非仅能判断“步骤完成度”的简单模型。

接着，论文将训练好的 $Q_{\phi}$ 转化为可量化的进度指标：对于数据集中的每一个状态-动作转移样本（即某一时刻的观测 $o_t$ 、语言指令l、机器人状态 $s_t$ 、动作 $a_t$ ），输入 $Q_{\phi}$ 得到其输出的“分类Q值分布”（因 $Q_{\phi}$ 为分布型评论家，输出并非单一数值，而是0-1区间内的离散分布），计算该分布的均值，即可得到该样本对应的任务进度 $\rho$ 。这一均值 $\rho$ 直观反映了“当前动作对任务进度的贡献度”—— $\rho$ 越接近1，说明动作越能推动任务走向成功； $\rho$ 骤降则表明动作可能是次优或错误的，为后续“过滤次优样本”提供了客观、可量化的判断标准。

数据增强

针对原始人类演示数据的固有局限：在双机械臂操作（如系鞋带）中，人类远程操作者往往习惯固定的“左右臂分工模式”（比如常用左臂固定鞋子、右臂操控鞋带），且演示场景的空间布局相对单一（如鞋子始终放在机器人左侧、鞋带位置固定）。这导致原始数据集中“左臂动作样本”与“右臂动作样本”分布不均衡，策略模型若仅学习这类数据，在实际部署中遇到“鞋子位置偏移、需右臂固定鞋子”等场景时，会因“未见过类似样本”而失败——数据增强正是为打破这种空间偏置而生。

核心实现方式是“形态对称性增强”，即利用双机械臂本身的左右对称形态结构，对原始数据集中的四大核心要素（图像观测、本体感觉状态、动作、语言指令）进行空间镜像变换，生成“语义一致但空间对称”的新样本，确保增强后的数据与原始数据任务意图相同，仅空间位置、左右臂分工不同。具体变换逻辑如下：

对于图像观测（ $o_t$ ），会对左腕相机、右腕相机、全局相机的RGB图像进行水平翻转，并交换左腕与右腕相机的图像数据，比如原始图像中鞋子在左侧，增强后鞋子会出现在右侧，且左腕相机画面变为原始右腕相机翻转后的画面；
对于本体感觉状态（ $s_t$ ），会在世界坐标系下对左右臂的关节角度、腕部位置等数据做镜像对称转换（如左臂X坐标从 $x_L$ 变为 $-x_L$ ），再映射回机器人本地腕坐标系，确保符合运动学约束，避免出现机械臂无法执行的动作；
对于动作（ $a_t$ ），会对动作的空间参数（如移动方向、旋转角度）做世界坐标系镜像变换，同时保持时间参数、力度参数不变，比如原始动作是“右臂向X正方向移动2mm”，增强后会变为“左臂向X负方向移动2mm”，二者均服务于“靠近鞋带”的核心目标；
对于语言指令（l），则会对指令中的空间方位词进行翻转替换，如“左”改为“右”、“左侧鞋眼”改为“右侧鞋眼”，确保指令与增强后的动作、观测匹配。

从实际效果来看，形态对称性增强显著提升了政策的泛化能力与整体性能：在系鞋带任务中，仅经过数据过滤的政策（Filtered BC）成功率为61.6%，加入增强后（Filtered BC+Aug.）成功率提升至72.7%；拆解到具体操作阶段，拾鞋带阶段成功率从0.928提升至0.962，能适配鞋带在机器人左右侧的不同位置；穿鞋眼阶段从0.710提升至0.765，可应对鞋眼在鞋子左右侧的对称场景；交接阶段从0.638提升至0.742，解决了“左臂交右臂”与“右臂交左臂”的动作适配问题。

在线强化学习

前两阶段的离线训练（过滤 + 增强）虽解决了 “数据质量” 和 “泛化能力” 问题，但仍存在关键矛盾：训练与部署的动作差异，这一差异由部署时的 “系统级优化” 直接导致：

训练阶段：政策学习的是 “原始动作块”（如从人类演示中预测的固定长度动作序列），未考虑任何实时调整，仅模拟 “理想状态下的动作执行”；
部署阶段：为保证机器人运动平滑（尤其毫米级精密操作，避免机械抖动），系统会对政策输出的原始动作进行优化，典型手段包括 “时间集成”（对连续多帧预测动作取平均，避免动作突变）和 “全身体滚动时域控制”（实时调整未来多步动作轨迹，适配当前腕部负载、环境轻微扰动等）。

这种 “训练学原始动作、部署用优化动作” 的不匹配，会导致离线政策在真实环境中 “执行变形”。例如，离线政策学习到 “精准对准鞋眼的原始动作”，但部署时系统优化后的动作可能偏离目标 1-2 毫米，最终导致穿眼失败 —— 这一问题无法通过离线训练解决，必须通过在线闭环试错让政策主动适配。

GR-RL通过“latent空间噪声预测、双缓冲区数据管理、双空间critic协同优化”三大设计，解决上述挑战，具体逻辑如下：

Latent空间噪声预测（安全探索的关键） GR-RL不直接在“原始动作空间”加噪，而是在动作生成的latent空间（噪声空间）进行结构化探索，核心是训练一个“噪声预测器”（ $\pi_{\theta'}$ ）：

动作生成依赖“动作扩散Transformer（DiT）”：DiT生成动作时需“初始噪声”作为输入，噪声的细微变化会间接影响最终输出的动作序列。噪声预测器的角色是预测“能导向高奖励区域的初始噪声（ $\epsilon_t$ ）”——即通过调整latent空间的噪声，让DiT生成“适配部署优化的动作”（如微调动作轨迹，抵消系统平滑带来的偏差）；
噪声约束：为避免噪声预测器生成“物理不可行”或“超出离线训练分布”的噪声（导致动作失控），加入噪声正则化惩罚：当预测噪声偏离“原始正态分布”的程度超过阈值 $\beta$ 时，施加惩罚项，强制噪声保持在合理范围内。

数据管理：双缓冲区设计（平衡探索与利用） 为提升在线训练的样本效率（减少真实环境试错成本），GR-RL设计“离线缓冲区+在线缓冲区” 双存储结构，分别存储不同来源的数据，通过均匀采样实现“探索与利用”的平衡：

离线缓冲区（Off-policy Buffer）：存储两部分数据——一是在线训练前，用“离线基础策略（Filtered BC+Aug.）”在真实环境rollout生成的轨迹；二是在线训练中，从“在线缓冲区”转移的“stale数据”（旧轨迹）。作用是提供大量高质量离线样本，保证训练稳定性，避免在线初期因探索不足导致的数据稀疏；
在线缓冲区（On-policy Buffer）：仅存储在线训练中“当前最新的两个政策检查点”生成的轨迹，旧数据定期转移至离线缓冲区。作用是提供“实时适配部署”的样本，让政策快速学习当前环境的动作优化规律，避免使用过时的探索样本。
每次训练时，从两个缓冲区“均匀采样批次数据”，既保证了训练的稳定性（依赖离线样本），又保证了更新的及时性（依赖在线样本）。

Critic协同优化：双空间Q函数蒸馏（对齐价值评估）为让政策准确判断“哪些探索动作能适配部署”，GR-RL同时优化动作空间critic与噪声空间critic，通过“Q函数蒸馏”实现价值评估对齐：

原始动作空间critic（ $Q_{\phi}$ ）：延续前两阶段的分布型critic，用标准TD3算法训练，评估“原始动作对任务进度的贡献”，确保政策不偏离“系鞋带”的核心任务目标；
噪声空间critic（ $Q_{\phi'}$ ）：新增的critic，专门评估“latent空间噪声 $\epsilon_t$ 生成的动作是否适配部署”。训练时通过“蒸馏”原始动作空间的Q值学习：将噪声生成的动作映射到原始动作空间，用 $Q_{\phi}$ 的价值作为监督信号，训练 $Q_{\phi'}$ 预测噪声的价值；
噪声采样策略：为保证噪声空间critic的泛化性，训练时以50%概率从“原始正态分布”采样噪声，50%概率从“噪声预测器 $Q_{\phi'}$ ”采样噪声——避免噪声预测器陷入局部最优，确保对噪声空间的全面覆盖。

整个过程的损失函数如下：

$\begin{gathered} \mathcal{L}(\pi_{\theta'}) = \mathbb{E}_{(\mathbf{o}_t, l, \mathbf{s}_t) \sim \mathcal{D}} \left[ -Q_{\phi'}(\mathbf{o}_t, l, \mathbf{s}_t, \epsilon_t) + c \max \left( \frac{1}{2} \| \epsilon_t \|^2 - \beta, 0 \right) \right], \epsilon_t \sim \pi_{\theta'}(\mathbf{o}_t, l, \mathbf{s}_t), \\ \mathcal{L}(Q_{\phi'}) = \text{cross\_entropy} \left( Q_{\phi'}(\mathbf{o}_t, l, \mathbf{s}_t, \epsilon_t), Q_{\phi}(\mathbf{o}_t, l, \mathbf{s}_t, \pi_{\theta}(\mathbf{o}_t, l, \mathbf{s}_t | \epsilon_t)) \right), \epsilon_t \sim \begin{cases} \mathcal{N}(\mathbf{0}, \mathbf{1}) & \text{w.p. } 0.5, \\ \pi_{\theta'}(\mathbf{o}_t, l, \mathbf{s}_t) & \text{otherwise}. \end{cases} \end{gathered}$

$\mathcal{L}(\pi_{\theta'})$ 公式的核心逻辑：该损失函数通过“价值项”与“正则化项”的结合，实现对噪声预测器的双目标优化，两个目标相互约束、协同作用：

第一目标：最大化噪声的任务价值（最小化 $-Q_{\phi'}$ 项）损失函数中的 $-Q_{\phi'}(o_t, l, s_t, \epsilon_t)$ 是“价值引导项”，其核心逻辑是噪声空间 $critic(Q_{\phi'})$ 的输出越高，说明噪声 $\epsilon_t$ 生成的动作越能适配部署优化（如抵消系统平滑导致的偏差，提升穿眼成功率），由于损失函数的目标是“最小化”，因此 $-Q_{\phi'}$ 项会推动模型学习生成“使 $Q_{\phi'}$ 值尽可能大”的噪声——本质是让噪声预测器聚焦“能提升任务成功率的有效噪声”，避免生成无意义的噪声。
第二目标：约束噪声的分布安全（正则化项）损失函数中的 $c \cdot \max\left( \frac{1}{2}\|\epsilon_t\|^2 - \beta, 0 \right)$ 是“安全约束项”，其核心逻辑是防止噪声预测器生成“极端噪声”，避免动作失控： - 当噪声 $\epsilon_t$ 的L2范数平方的1/2（ $\frac{1}{2}\|\epsilon_t\|^2$ ）小于等于阈值 $\beta$ 时， $\max(\cdot)$ 输出0，正则化项无惩罚——说明噪声强度在“安全范围”内，不会导致动作超出物理约束；当噪声强度超过阈值 $\beta$ 时， $\max(\cdot)$ 输出正值，正则化项施加惩罚，且噪声强度越大，惩罚越重——强制模型减少极端噪声的生成，避免机械臂出现“关节超限”“动作突变”等危险情况。

$\mathcal{L}(Q_{\phi'})$ 核心目标：让 $Q_{\phi'}$ 的价值评估对齐 $Q_{\phi}$ 动作空间评论家 $Q_{\phi}$ 是前两阶段已训练成熟的“任务进度评估器”，能精准判断“动作对任务成功的贡献”（如是否能精准穿入鞋眼），而噪声空间评论家 $Q_{\phi'}$ 的核心任务是“通过噪声间接评估动作价值”——因此需要将 $Q_{\phi}$ 的输出作为“监督目标”，通过交叉熵损失强制 $Q_{\phi'}$ 的输出向其对齐：

第一步：由噪声 $\epsilon_t$ 生成对应动作——政策 $\pi_{\theta}$ 根据噪声 $\epsilon_t$ 输出实际动作 $\pi_{\theta}(o_t, l, s_t|\epsilon_t)$ ；
第二步：获取动作空间的“真实价值”—— $Q_{\phi}$ 评估该动作的价值，得到“目标价值”；
第三步：对齐噪声空间的“预测价值”—— $Q_{\phi'}$ 评估噪声 $\epsilon_t$ 的价值，通过交叉熵损失让其预测值逼近 $Q_{\phi}$ 的目标值。例如，若噪声 $\epsilon_t$ 生成的动作能精准穿入鞋眼， $Q_{\phi}$ 会给出高价值（如0.9），交叉熵损失会迫使 $Q_{\phi'}$ 对该噪声也输出高价值（接近0.9）；反之，若噪声导致动作偏离鞋眼， $Q_{\phi}$ 输出低价值（如0.1）， $Q_{\phi'}$ 的输出也会被约束至接近0.1——最终让 $Q_{\phi'}$ 能通过噪声直接判断“该噪声是否能生成适配部署的有效动作”。

泛化保障：若仅用噪声预测器 $\pi_{\theta'}$ 的输出噪声训练 $Q_{\phi'}$ ，会导致 $Q_{\phi'}$ 仅能评估“已优化的目标噪声”，无法应对其他潜在噪声（如部署中突发的轻微扰动）——因此公式设计“50%标准正态噪声+50%预测器噪声”的混合采样策略：

标准正态噪声（ $\mathcal{N}(0,1)$ ）：代表“无偏向的基础噪声”，覆盖更广泛的噪声分布，让 $Q_{\phi'}$ 学习评估“通用场景下的噪声价值”，避免泛化性不足；
预测器噪声（ $\pi_{\theta'}$ 输出）：代表“适配部署的目标噪声”，让 $Q_{\phi'}$ 聚焦学习“有效噪声”的价值特征，保证评估精度。这种采样方式平衡了“泛化性”与“精准性”，确保 $Q_{\phi'}$ 既能应对部署中的多样化噪声，又能精准识别“能提升成功率的有效噪声”。

效果：实现部署对齐，突破成功率瓶颈在线引导阶段通过“适配部署优化”，让GR-RL的性能实现最终突破：整体成功率提升：前两阶段的基础政策（Filtered BC+Aug.）成功率为72.7%；经过500步在线RL优化后，最终成功率稳定在83.3%。

机器人系统

实验选用的机器人平台以“移动基座+双臂协作”为核心架构，专为长程灵巧精密操作（如系鞋带）设计，关键硬件参数与功能如下：

移动基座：采用轮式移动底盘，配备激光雷达与视觉传感器，支持自主定位与避障，可根据任务需求调整机器人整体位置（如系鞋带时靠近鞋的摆放区域），解决“固定基座操作范围有限”的问题； 双臂配置：搭载两个6自由度（DoF）机械臂，末端装有**力控夹爪**——夹爪内置力传感器，能感知抓取力度（如抓取柔软鞋带时避免用力过猛导致变形，或抓取鞋子时保证稳定不滑落），关节驱动精度达毫米级，满足系鞋带任务中“穿入鞋眼”的精密控制需求；

为让机器人精准感知环境、理解任务并掌握自身状态，系统配置了多源感知设备，各模块功能与数据用途如下：

视觉感知：包含3路RGB相机——左腕相机、右腕相机（分别安装在两机械臂末端）用于拍摄近距离操作细节（如鞋带尖端位置、鞋眼对齐情况），全局相机（安装在机器人顶部）用于捕捉整体环境（如鞋子摆放位置、机器人与目标的相对距离），视觉数据经预处理后输入GR-RL的视觉-语言模型（VLM），用于提取环境特征（如“鞋带是黑色、鞋眼在鞋子前端”）；

本体状态感知：机械臂关节处安装编码器，实时采集关节角度数据；夹爪与腕部安装力传感器和位置传感器，记录抓取力度、腕部空间坐标——这些数据整合为机器人状态 $s_t$ ，输入政策网络用于生成“符合运动学约束”的动作（如避免关节超限），同时输入评论家网络用于评估动作的可行性；

语言交互模块：支持接收自然语言指令（如“将鞋带穿入左侧鞋眼”），指令经文本预处理后转化为语义特征，与视觉、本体状态数据融合，确保机器人理解任务目标，避免“无目的操作”（如不会将鞋带穿入错误鞋眼）。

适配真实场景的执行策略为解决前文提及的“训练-部署不匹配”问题，系统在实际运行时加入两项关键优化，确保GR-RL政策能稳定执行：

全身体滚动时域控制（Whole-body Receding Horizon Control）：不同于训练时“固定长度动作块”的理想假设，部署时系统会实时规划未来短时间窗口（如0.5秒）内的“移动基座+双臂”协同轨迹——例如，当机械臂因微小振动导致鞋眼对齐偏差时，系统会动态调整基座位置或臂部姿态，修正偏差后再执行下一步动作，避免“动作执行偏差累积”导致失败；

时间集成（Temporal Ensembling）：对政策网络输出的连续多帧动作预测结果取平均，平滑动作序列——例如，政策原本预测“右臂向左移动2mm”“向左移动3mm”“向左移动1mm”，经时间集成后实际执行为“向左移动2mm”，避免动作突变导致的机械臂抖动，同时减少“单帧预测噪声”对精密操作（如穿鞋眼）的影响。这两项优化虽会改变训练时的动作模式，但能显著提升机器人在真实环境中的抗干扰能力与操作稳定性，是GR-RL政策从“实验室成功”走向“真实场景成功”的关键支撑。

实验

任务描述

GR-RL实验的核心验证场景是系鞋带任务，该任务因具备长程性、灵巧性与精密性而具有挑战性，长程性体现在需完成拾取鞋带、对准鞋眼、穿入鞋带等多步连续操作且步骤间误差易累积，灵巧性要求机器人灵活处理柔软易形变的鞋带与有弹性的鞋子，精密性则因鞋眼孔径小、鞋带直径细而需要毫米级对准精度，这些特征恰好对应GR-RL需解决的核心问题，能全面验证算法的长程稳健性、灵巧操作能力与精密控制能力。

机器人执行任务时的观测数据构成，包括三视角RGB图像、本体感知状态与语言指令，其中三视角RGB图像（左腕相机、右腕相机、全局相机画面）分别提供近距离操作细节与全局环境信息，本体感知状态（机械臂关节角度、夹爪力度等）反映机器人自身运动学状态以确保动作符合物理约束，语言指令（如“将鞋带穿入左侧鞋眼”）则明确任务目标，避免无目的操作。

在模型推理阶段，系统会加入轨迹优化模块，对政策输出的动作块进行优化，通过约束冲击度（jerk）避免机械臂动作突变、减少抖动，同时保证时间连续性以实现相邻动作块的平滑衔接，防止动作切换时出现停顿或姿态突变，该优化进一步缩小了训练动作与真实执行动作的差距，为精密操作与长程任务连续执行提供保障。

训练阶段采用二元稀疏奖励设置，仅当鞋带被精准穿入正确鞋眼且完全平稳放置在桌面上时，才给予1的正向奖励，所有中间步骤（如拾取鞋带成功、对准鞋眼未穿入）与失败情况（如穿错鞋眼、鞋带滑落）均无奖励，这种设计强制模型自主探索导向最终成功的有效动作，避免因中间步骤奖励定义模糊导致学习低效，同时让训练目标与真实任务成功标准完全对齐。

主要结果

在整体任务成功率上，GR-RL经“数据过滤+形态增强+在线引导”全流程优化后，最终系鞋带任务成功率稳定达到83.3%，显著优于仅用原始人类演示数据训练的GR-3政策（45.7%），且大幅超过未加入在线引导的离线优化政策（Filtered BC+Aug.，72.7%），证明在线引导对解决“训练-部署不匹配”的关键作用。

从关键模块消融实验结果来看，单独数据过滤阶段能将成功率从45.7%提升至61.6%，说明通过任务进度评估器剔除次优样本可有效提升数据质量；在此基础上加入形态增强后，成功率进一步提升至72.7%，验证了空间对称数据增强对打破原始演示空间偏置、提升政策泛化性的效果；而在线引导阶段通过latent空间结构化探索与双缓冲区数据管理，最终将成功率再提升10.6个百分点，凸显部署阶段动作对齐对突破精密操作瓶颈的重要性。

在具体操作环节表现上，GR-RL在最依赖精度的“穿鞋眼”环节成功率从离线阶段的76.5%提升至89.6%，在易受空间布局影响的“拾鞋带”“交接鞋带”环节成功率分别达到96.2%与92.4%，且面对桌面轻微震动、鞋带重量细微差异等真实环境扰动时，政策仍能保持80%以上的稳定成功率，体现出良好的抗干扰能力。

此外，通过与其他主流灵巧操作算法（如基于稠密奖励的RL算法、传统模仿学习算法）的对比，GR-RL在训练数据效率上优势显著——仅用相同数据量的1/3即可达到相近或更高的成功率，且无需人工设计复杂的中间步骤奖励函数，进一步证明稀疏奖励设计与多阶段优化策略的高效性，为长程灵巧精密操作任务提供了更具实用性的解决方案。

进度评估器消融实验

实验首先设置了“无进度评估器”的基线组，即直接使用原始人类演示数据（未经过滤）训练政策，结果显示该组成功率仅为45.7%，且训练过程中政策易学习到人类演示中的犹豫动作、无效微调等噪声行为，导致穿眼偏差、鞋带滑落等失误频发，证明若缺乏评估器对样本的筛选，原始数据中的次优信息会严重影响政策性能。

随后设置了“替换为传统评估方式”的对照组，包括“人工标注评估”与“回归型评论家评估”：人工标注组依赖人工判断演示样本是否有效并过滤，虽能将成功率提升至55.2%，但标注过程耗时且存在主观偏差（如不同标注者对“轻微犹豫动作”的判定不一致），导致过滤后的数据质量不稳定；回归型评论家评估组则用传统无界回归值的评论家替代分布型评论家，其输出的进度指标因缺乏明确上下界且易受噪声影响，最终策略成功率仅为58.1%，且在穿眼等精密操作环节的误差显著高于使用分布型评估器的组别。而使用GR-RL原设计“分布型任务进度评估器”的组别，通过输出0-1区间的离散Q值分布并计算均值作为进度指标，能精准识别无效样本并过滤，最终政策成功率达到61.6%，不仅显著高于无评估器组与传统评估方式组，且过滤后的数据在动作一致性、有效样本占比上均更优——有效样本占比从原始数据的约62%提升至89%，避免了人工标注的低效与回归型评估的不稳健，充分证明该分布型进度评估器在“精准筛选优质样本、提升数据质量、进而优化政策性能”上的核心作用，也验证了其设计（如稀疏奖励驱动、分布型输出）对长程精密操作场景的适配性。

左图：多阶段训练流程的成功率，数据过滤、镜像增强以及在线微调均对最终性能有所贡献；右图：在线微调过程中每个回合的二值成功信号（点）以及成功率的移动平均曲线（线），在离线到在线的适应阶段后，性能迅速提升

不同模型在各中间步骤的详细成功率，每个斜线区域的高度表示该步骤相较于前一步骤的成功率下降幅度

学习行为可视化

动作序列时序图通过跟踪两机械臂关节角度、夹爪力度及移动基座位置的动态变化，对比原始GR-3政策与GR-RL优化后政策的行为差异：原始政策在操作中常出现关节角度频繁波动（对应犹豫微调）、夹爪力度忽大忽小（导致鞋带变形或滑落），而GR-RL优化后政策的关节角度曲线更平滑，夹爪力度能根据操作对象动态调整（如抓取鞋带时力度轻柔、固定鞋子时力度稳定），移动基座仅在必要时（如需靠近鞋眼）小幅调整，整体动作序列更简洁高效，无冗余行为。

任务进度曲线以时间为横轴、进度指标ρ（分布型评论家输出均值）为纵轴，呈现不同阶段政策执行任务时的进度变化：无进度评估器的政策进度曲线波动剧烈，常出现“进度上升后骤降”（对应执行有效动作后又出现失误）；使用进度评估器过滤数据后，曲线上升趋势更稳定，仅在复杂操作（如交接鞋带）时出现小幅波动；加入在线引导后，曲线能持续稳步上升，直至任务完成时ρ接近1，且无明显骤降，说明政策能持续执行有效动作，避免失误，进度判断与实际任务推进高度一致。

关键操作帧对比则选取“拾鞋带”“穿眼”“交接鞋带”三个核心环节的典型帧，展示GR-RL政策的行为细节：拾鞋带时，机械臂能精准定位鞋带中端，夹爪轻缓闭合避免鞋带滑动；穿眼时，腕部微调角度确保鞋带尖端与鞋眼精准对齐，动作幅度控制在毫米级，无偏移；交接鞋带时，双臂协同调整姿态，传递过程中无鞋带脱落，且移动基座配合微调位置以减少臂部操作负担，对比原始政策“拾鞋带偏移”“穿眼偏差”“交接脱落”的问题，GR-RL学习到的行为更贴合任务需求，精密性与协调性显著提升。

此外，可视化还通过热力图展示政策对环境特征的关注重点：GR-RL政策在操作时，视觉注意力主要集中在鞋带尖端、鞋眼位置及夹爪与对象接触处，而原始政策注意力分散（如关注桌面无关纹理），进一步说明GR-RL通过多阶段优化，能更精准地捕捉任务关键特征，引导行为向有效操作聚焦。

3.总结

本文引入了GR-RL，这是一个机器人学习框架，用于构建专业的VLA策略，以实现长期灵活和精确的操作。GR-RL的关键见解是，数据收集和策略推理之间的不匹配需要在线调整。GR-RL通过将稀疏奖励获得的评价值作为任务进度预测来学习基于RL的评价器，并使用它来过滤高质量的转换以训练健壮的基本策略。在此过程中，作者还引入了一种简单而有效的形态对称性增强方法来提高整体性能。最后，作者执行在线RL，使推出行为与训练信号保持一致。

GR-RL是第一个能够系鞋带的基于学习的政策。GR-RL能够朝着有能力的现实世界专家机器人政策迈出一小步。