ICCV2025 | DexVLG：大规模灵巧视觉-语言-抓取模型~-优快云博客

点击下方卡片，关注“具身智能之心”公众号

作者丨Jiawei He等

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

动机与出发点

随着大型模型的兴起，视觉-语言-动作系统使机器人能够处理日益复杂的任务。然而，受限于数据收集的难度，研究进展主要集中在控制简单的夹持器末端执行器上。关于使用大型模型实现类人灵巧手的功能性抓取研究较少。DexVLG是一个大型视觉-语言-抓取模型，用于根据语言指令，通过单视角RGBD输入预测灵巧抓取姿态。

为实现这一目标，还生成了一个包含1.7亿个灵巧抓取姿态的数据集，这些姿态映射到174,000个模拟目标的语义部分，并配有详细的part级描述。这个名为DexGraspNet 3.0的大规模数据集被用于训练一个VLM和基于流匹配的姿态Head，该模型能够为桌面物体生成与指令对齐的抓取姿态。为了评估DexVLG的性能，在基于物理的模拟中创建了基准，并进行了真实世界实验。大量测试表明，DexVLG具有强大的零样本泛化能力，在模拟中实现了超过76%的零样本执行成功率和最先进的部分抓取精度，并且在真实世界场景中成功实现了与部分对齐的抓取。

领域介绍

为了释放机器人的智能能力，最近在大型视觉-语言-动作（VLA）模型方面的进展展示了一种很有前景的方式。它们在现实世界中不同场景下的许多复杂机器人任务中表现出强大的泛化能力。成功的关键原因在于大型模型容量和训练数据集：模型通常具有十亿级参数，并在十亿级机器人数据集上进行训练。

然而，这些大型VLA模型目前仅限于平行夹持器，无法控制灵巧手。主要原因是缺乏灵巧抓取的数据。一些工作通过重定向人类运动和远程操作真实机器人来收集数据，但这些都需要大量的人力。一些工作使用基于分析的方法快速合成大规模灵巧抓取数据集，但它们缺乏语义感知，因此无法像人类一样执行功能性抓取。例如，人类通常握住锤子的手柄来使用它，但在递给别人时可能会握住金属部分。最近关于功能性灵巧抓取的研究只能使用规模非常有限的数据集，这极大地限制了模型容量和泛化能力。

为了应对数据挑战，这里提出了一个大规模的部分感知功能性灵巧抓取数据集，名为DexGraspNet 3.0。数据集包含来自Objaverse数据集的174k个目标上的1.7亿个灵巧抓取姿态。每个抓取姿态都在基于物理的模拟中进行了验证，并配有描述被抓取部分名称和抓取风格的标题。为了构建这个数据集，遵循DexGraspNet系列工作以高效合成抓取，并引入部分感知能量使每个抓取在语义上可区分。还利用最先进的object-part理解模型，如SAMesh和GPT-4o，进行部分分割和标题生成。

在DexGraspNet 3.0的支持下，开发了DexVLG，一个大型视觉-语言-抓取模型。DexVLG以语言指令和桌面物体的单视角彩色点云作为输入，并基于该指令生成灵巧抓取姿态。DexVLG利用多个预训练的基础模型提取视觉-语言特征，并采用基于流匹配的去噪范式来预测抓取姿态。该模型拥有数十亿参数，并在我们的大规模数据集上进行端到端的微调。

为了评估DexVLG的性能，在模拟和现实世界中都进行了实验。首先在Isaac Gym中建立了一个部分感知灵巧抓取的基准，使用新的指标来评估灵巧抓取姿态的部分对齐。通过与多个基线模型的比较，展示了我们模型的优越性。DexVLG在所有基准测试中都优于基线模型，并达到了超过76%的抓取成功率。这里还展示了由DexVLG预测的在现实世界中的成功执行案例。

符号和任务说明

将语言指令的灵巧抓取生成任务表述如下：输入是放置在桌子上的物体的单视角彩色点云P，以及指定要抓取的语义目标部分和抓取风格的语言指令T。

输出是一个灵巧手姿态，该姿态正确抓取所需的目标部分，并具有输入语言指令所描述的所需抓取风格。抓取表示为，其中T∈R³和R∈SO(3)定义手腕姿态，指定手的关节角度。使用Shadow Hand，其中d=22。

DexGraspNet 3.0数据集

1）数据集统计

表1总结了DexGraspNet 3.0数据集的关键特征。DexGraspNet 3.0包含1.7亿个灵巧抓取，涉及174k个object，就抓取姿态和object数量而言，是迄今为止最大的灵巧抓取数据集。每个抓取都使用基于物理的模拟器IsaacGym进行了验证，并配有语义标题和部分级注释，从而产生1.7亿个用于训练VLG模型的姿态-标题对。数据集的可视化如图2所示。

2）object准备和部分分割

object来源于Objaverse数据集，并使用GPT-4o进行过滤。然后使用ManifoldPlus和CoACD处理资产以生成碰撞网格，产生229K个有效obejct。对于每个有效object，GPT-4o估计合理的大小，并相应地进行归一化。

使用SAMesh在无色碰撞网格上执行基于零样本几何的部分分割。图2展示了分割结果的可视化，提供了足够的功能先验。part分割的object从多个视角渲染，并使用GPT-4o的set-of-mark提示自动标记部分名称。

3）部分感知灵巧抓取生成

抓取合成流程如图3所示。它建立在先进的基于分析的方法之上，该方法使用cuRobo支持GPU上的大规模并行化。为了调整以前的语义不感知管道，提出了部分感知的手姿态初始化策略和几个能量函数。

part感知手姿态初始化

如DexGraspNet中所观察到的，初始手姿态被认为极大地影响基于梯度的优化结果。尽管该工作提出了一种初始化方法，但它不适合我们需要抓取特定部分的场景。如图3所示，首先生成obejct部分的定向边界框（OBB），并从部分表面的特定区域采样抓取点。然后，使用依赖于OBB指示的几何线索的规则设置手掌姿态和初始关节角度。手腕姿态进一步随机抖动以获得多样化的分布。

基于梯度优化的目标

这里制定了用于基于梯度优化的基于物理的能量函数。

基于LP的可微力封闭能量：最近的许多工作提出了不同种类的可微力封闭度量来评估抓取质量。我们采用DexGraspNet2.0中提出的变体来平衡速度和性能。一方面，基于LP的能量使用线性规划（LP）来调整接触力，放宽了原始DFC度量中接触力相等的假设。另一方面，能量假设无摩擦，避免了BODex中二次规划的繁重计算。

Part-contact energy：为了促进手和所需part之间更好的接触收敛，遵循IPC模拟器中的碰撞检测算法，并定义一个截断屏障函数，该函数排斥指尖与目标part外的object表面接触：

其中定义为：

其中是指尖。是从目标部分外部的object表面采样的点云。当任何手指与部分外部的object接触时，趋于无穷大，因此当步长足够小时严格执行部分对齐。

距离能量：最小化指尖与object之间的距离以确保接触，并鼓励手掌接触点与object保持的距离。

此外，实现了几个正则化能量，聚合为，以防止手-object碰撞、手自碰撞，并鼓励接触点与手指的正面对齐。完整的能量函数是：

4）抓取验证和标题生成

为了在优化完成后获得没有不良姿态的高质量数据集，使用基于物理的模拟器IsaacGym验证所有最终姿态。特别是，检查一组4个标准，只考虑通过所有标准的抓取姿态为有效：1. 手和obejct之间的穿透小于3mm；2. 手的自穿透距离小于3mm；3. 它在模拟中抵消了所有六个轴对齐方向的重力；4. part对齐条件，即如果手链接与object接触（即到object的距离小于0.2 cm），则该手链接应比object的任何其他部分更接近所需部分。

用模板“Grasp the {part} of the {object} object, with contacts on {fingers}”为每个抓取姿态添加标题，其中{part}和{object}是GPT-4o推断的部分名称和object名称。部分对齐条件确保每个抓取姿态具有对应的有意义的部分名称。{fingers}列出了与object部分接触的所有手指的名称，这在模拟中进行检查。每个标题包含丰富的语义和接触信息，供模型学习。

5）桌面场景生成和渲染

上述抓取姿态是为漂浮object生成的，但在现实世界中，object通常放在桌子上。因此，我们还需要为稳定放置在桌子上的object生成多样化的姿态。遵循Open6DOR，我们从SO(3)均匀采样N=1000个初始旋转，并将object从10cm的高度下落到地面。模拟5秒，并收集所有稳定的姿态并去重。然后使用生成的object姿态变换抓取姿态，并过滤掉那些与桌子碰撞的抓取。每个场景使用Blender中的RealSense D415 RGBD相机从八个视角渲染。

DexVLG模型

如图4所示，DexVLG以单视角点云观测和语言指令作为输入，输出符合语言指令要求的抓取姿态。

1）点云（PC）编码器

点云编码器接收单视角彩色点云作为输入。目前已有许多经过预训练的基础点云编码器，我们选用预训练的Uni3D骨干网络，其采用基于ViT的架构，参数规模从小型（2300万）到大型（3.07亿）不等。Uni3D通过对比学习将点云特征与CLIP特征对齐进行预训练，因此具备从原始点云中提取语义信息的能力。点云在输入编码器前，会通过最远点采样下采样至固定数量（nₚ=10000）。编码后的3D特征随后送入MLP投影器，使点云特征与预训练的大型语言模型对齐。