摘要
在灵巧机械手(dexterous hand)操作任务中,数据稀缺一直是阻碍模型泛化与实用化的关键问题。传统方法依赖人类演示、优化、或强化学习,虽然各有成效,但仍存在成本高、效率低、多样性不足等挑战。本文作者提出了一种全新的生成式数据构建框架,结合优化和生成模型,推出了目前最大规模的灵巧操作数据集 Dex1B,包含十亿条高质量演示,涵盖抓取(grasping)和关节操控(articulation)两大核心任务。为了有效利用这一海量数据,作者还提出了一个结构简单但表现卓越的基线模型 DexSimple,通过引入几何约束(如SDF)提升生成质量。实验证明,Dex1B 显著提升了现有模型在仿真和真实世界中的表现,展示了其强大的可扩展性与通用性。该工作标志着生成模型在灵巧操作数据生成中的一次重大突破,为灵巧机器人操作的未来应用奠定了坚实基础。
灵巧手(dexterous hand)的操作能力一直是机器人领域的长期研究课题。尽管其高度灵活且动态的特性使其具备更复杂、稳健的操作能力,但其高自由度(DoF)也使得实现理想的操作行为极具挑战。事实上,随着近年来平行夹爪(parallel-jaw gripper)在多个应用中的成功,学界开始质疑灵巧手的必要性,认为它可能只是让问题变得更加困难。
与这种质疑相对的是另一个重要观点:灵巧手所带来的“额外”自由度在实际操作任务中极具价值。在需要精细控制的任务中,例如稳定抓取、非刚性对象操控、多物体操作、或者在拥挤空间中进行精细插入等,灵巧手能够展现出夹爪系统难以具备的操作灵活性。然而,真正限制灵巧手大规模应用的核心瓶颈在于数据——具体而言,是缺乏足够规模和多样性的高质量操作演示数据。
现有方法多依赖于强化学习、模仿学习或者人类演示来获得训练数据。这些方式通常成本高昂、采集缓慢,且在覆盖任务多样性方面存在天然限制。因此,与大多数灵巧操作模型相比,平行夹爪的训练方式反而更高效、更实用——这也是为什么目前绝大多数实际应用仍选用夹爪系统。
本文提出了一种新的范式来解决这一问题:利用生成式数据生成框架,在不依赖人工演示或在线训练的前提下,合成大量灵巧操作演示。该方法将优化器与生成模型结合,通过大规模仿真合成构建出了一个涵盖两个主要任务(抓取与关节操控)的通用数据集 Dex1B,总量达 10 亿条演示。
为便于研究社区使用这类大规模数据,作者还设计了一个简单但表现强大的基线模型 DexSimple,结构轻量,易于扩展,且能显著从大规模数据中获益。综合实验表明,该数据集和方法对多个主流基线模型均有显著提升作用,并在多个任务上大幅超越现有性能。。
图2|Dex1B 基准数据集包含十亿条高质量的合成演示,覆盖抓取任务(上图)和构型操控任务(中图)。下图展示了在 Dex1B 上训练的 DexSimple 模型直接迁移至真实环境的效果,验证了 Dex1B 的可扩展性和在现实环境中的泛化能力
本研究提出了一个名为 Dex1B 的大规模灵巧操作数据生成框架,其核心是一种迭代式的数据生成机制,结合优化方法与生成模型,实现了超大规模高质量操作轨迹的自动化构建。整个方法可分为五个关键组成部分,如下图所示:
图3|全文方法总览
接下来小编将对每个部分的方法实现进行展开介绍:
1. 优化器构建种子数据集(Seed Data via Optimization)
为了启动数据生成流程,作者首先利用一个高效的轨迹优化器创建了一个初始种子数据集。该优化器根据目标任务生成灵巧手的动作序列。与传统优化方法不同,该优化器不仅考虑轨迹的动态可行性,还集成了多个物理约束:
● 碰撞检测:避免手部与物体或环境发生不合理穿透;
● 自穿透惩罚:抑制手指之间的不自然交叉;
● 关节限制:确保所有动作都在机械结构允许范围内;
● 接触点控制:鼓励合理、稳定的手指-物体接触;
● 轨迹平滑性:使生成的动作在时间上连续、自然。
这一阶段产生了约 500 万条质量可靠的轨迹,涵盖了抓取和构型操控两类核心任务,作为生成模型训练的“起点”。
2. DexSimple:条件生成器(Generative Model for Expansion)
为了扩展初始数据集,作者设计了一个简单但有效的生成模型——DexSimple。该模型采用条件变分自编码器(CVAE)架构,输入为目标条件(如物体形状或目标姿态),输出为一段多帧灵巧手轨迹。模型主要由以下几部分组成:
● 输入表示:使用 PointNet 提取物体点云的三维几何特征;任务条件(例如目标位置、目标角度)则作为附加输入编码;
● 轨迹输出:预测整段动作序列,包括每一帧的关节角状态,支持灵巧手高自由度控制;
● 多帧建模:利用序列建模能力,在多帧层面输出完整轨迹,而非仅预测单帧动作;
● 训练方式:引入 KL 散度正则项及重建损失训练生成器。
● 该模型结构轻量,易于扩展,但表现优异,可直接生成与任务目标对齐的多步操作轨迹。
图4|DexSimple 流程图:该模型采用条件变分自编码器(CVAE),其输入条件包括手部参数与局部物体点云特征。手部参数与物体的局部点对应关联。训练过程中,模型同时采用标准的均方误差(MSE)与 KL 散度损失进行监督,并引入近似的 SDF 损失,以施加几何约束。
3. 数据去偏机制(Debiasing for Diversity)
由于初始优化数据通常集中在特定几类物体或策略模式下,生成模型在训练时容易过拟合这些高频情况。为解决这一分布偏移问题,作者提出了一种主动去偏机制,在训练过程中对低频条件赋予更高的采样概率:
● 对于使用频率较低的物体形状、手型、轨迹模式等,优先进行采样与训练;
● 同时在生成时加入多样性正则项,引导模型覆盖更大任务空间。
● 这一机制确保了生成的数据覆盖更多不同类型的操作策略与物体交互,提升泛化能力。
4. 多轮迭代生成(Iterative Bootstrapping)
整个数据生成过程不是一次性完成的,而是通过多轮迭代渐进式扩展:
● 第一步,使用优化器生成种子数据;
● 第二步,训练 DexSimple 模型;
● 第三步,用 DexSimple 在新物体和新目标条件下生成大规模候选轨迹;
● 第四步,将候选轨迹输入优化器进行再筛选(修正),保留高质量轨迹;
● 最后,将这些新轨迹加入训练集,重新训练生成器。
每一轮都能提升模型的生成能力与数据多样性,最终产生了超过 10 亿条成功演示数据。
5. 任务定义与目标构建(Task Formulation)
Dex1B 支持两种任务:
● 抓取任务(Grasping):要求机械手稳定抓住物体,并抬升到指定高度,保持一段时间不脱落;
● 关节操控任务(Articulation):要求机械手操控具有活动结构的物体(如翻盖、开门),达到目标角度。
每个任务轨迹都包括三阶段:
1. 预抓取阶段:手接近物体;
2. 主动作阶段:执行抓取或操作;
3. 后处理阶段:如抬升、旋转、静止等。
这些任务目标在后续会被编码为物体点云与目标状态的组合,用于条件生成。
6. 几何感知损失与 SDF 引导(Geometry-Aware Training)
为了提高生成质量,DexSimple 还引入了以下几何损失函数:
● SDF(签名距离函数)约束:防止手部与物体的非物理穿透;
● 接触距离损失:鼓励手指与物体保持合理接触,而非悬空;
● 轨迹平滑性损失:增强时序连贯性,避免跳跃与不稳定行为。
在后续的实验部分我们会看到,这些几何损失是 DexSimple 表现优于标准 CVAE 的关键所在。
DexSimple模型在DexGraspNet基准上的抓取合成能力
在图5中,作者对比了不同方法在抓取任务上的表现,涵盖了质量指标(成功率、Q1评分、穿透深度)与多样性指标(关节熵均值与标准差):
● 在不使用优化或过滤的情况下,DexSimple的成功率为 63.7%,已超过许多现有方法,如UGG(43.6%)和DDG(67.5%),且其多样性(熵均值 8.53)明显优于其他模型;
● 进一步引入优化与过滤后,DexSimple成功率上升至 92.6%,显著超过所有基线方法。
这表明DexSimple不仅能生成成功率更高的抓取动作,也能提供更多样化的策略接下来是本文的重头戏,也就是阴影渲染可视化实验。
图5|抓取任务实验结果
图6|不同数据集迁移实验结果
Dex1B数据集与现有数据集的对比分析
图6展示了在DexYCB、ARCTIC和Dex1B数据集上的迁移实验结果:
● 无论是抓取任务还是关节运动任务,基于Dex1B训练的模型在所有测试集上表现更好。例如,DexSimple在ARCTIC测试集上的articulation任务表现为64.79%,而基于ARCTIC训练的模型仅有30.16%的成功率dex1b。
● 图 7 辅助说明了Dex1B中手部关节值分布更加均衡,相较于DexYCB和ARCTIC,后者往往集中在极端值附近。这种分布的均匀性表明Dex1B在多样性方面具备显著优势
图7|关节值分布结果
数据集规模扩展对性能的影响
从图8可以分析出:
● 模型性能随着训练数据增加而持续提升;
● 抓取任务对数据量更为敏感,在数据减少时性能下降更明显;
● articulation任务受数据量影响较小,表明该类任务对几何泛化能力的要求略低。
图8|抓取任务和Articulation任务实验结果
几何损失的消融实验
图9显示了对 DexSimple 模型中两个几何损失项的消融结果:
● 去除 SDF 损失(Lsdf)后成功率急剧下降至 0.7%,显示其对于避免穿透至关重要;
● 去除接触距离损失(LD)也会使成功率下降至 42%,虽然影响略小,但对稳定接触起关键作用dex1b。
这些实验表明:两类损失函数共同保证了抓取的物理可行性和稳定性,分别关注“避免穿透”和“建立接触”
图9|消融实验结果
该研究提出了 Dex1B,这是一个包含十亿条演示的合成数据集,专为灵巧手操作任务而设计。研究团队构建了一套迭代数据生成流程,将优化算法与生成式学习方法结合起来,从而高效生成高质量的操作轨迹。
具体而言,作者首先通过纯优化方法生成种子数据集,用于训练生成模型 DexSimple。随后,DexSimple 用于快速生成候选数据,之后再通过优化器精细调整。经过去偏与验证处理后,形成了完整的高质量数据集。
实验结果显示,结合几何损失的 DexSimple 在 DexGraspNet 基准测试中比以往最优方法提升了 22 个百分点。其在抬升任务与构型变换任务中的表现也验证了 Dex1B 与 DexSimple 在推动灵巧手操作研究中的有效性。
论文出处:RSS2025
论文标题:Dex1B: Learning with 1B Demonstrations forDexterous Manipulation
论文作者:Jianglong Ye, Keyi Wang, Chengjing Yuan, Ruihan Yang, Yiquan Li, Jiyue Zhu
Yuzhe Qin, Xueyan Zou, Xiaolong Wang
项目地址:https://jianglongye.com/dex1b/