论文学习笔记：Language-driven Grasp Detection-优快云博客

本文链接：https://blog.youkuaiyun.com/AccumulateAZ/article/details/143361915

提示：文章

目录

文章目录

前言

一、摘要 Abstract

二、前言 Introduction

三、相关工作 Related Work

1.Grasp Detection 抓取检查

2.Language-driven Grasp Detection Datasets 语言驱动的抓取检测数据集

3.Diffusion Models for Robotic Applications.

四、GA++数据集 The Grasp-Anything++ Dataset

建立数据集分为三个关键步骤：

提示程序

图像合成和抓取姿势注释

后处理

1. Prompting Procedure 提示程序

2. Image Synthesis and Grasp Annotation 图像合成与抓取标注

2.1 图像合成 Image Synthesis

2.2 抓取标注 Grasp Annotation

3. 后处理 Post Processing.

五、Language-driven Grasp Detection 语言驱动的抓取检测

六、实验 Experiments

Language-driven Grasp Detection Results Steup&Result

Zero-shot Grasp Detection Step&Result

总结

前言

人们提出了许多方法和数据集来解决抓取检测问题。然而，他们中的大多数人并没有考虑使用自然语言作为检测抓取姿势的条件。在本文中，我们介绍了 Grasp-Anything++，一个用于语言驱动的抓取任务的新数据集和方法

提示：以下是本篇文章正文内容，下面案例可供参考

一、摘要 Abstract

贡献点

介绍了 Grasp-Anything++，这是一种新的语言驱动的大型抓取检测数据集，用于语言驱动的抓取检测任务，具有1M样本，超过10M物体，超过100M指令。
提出了一种具有训练目标的扩散模型，该模型明确有助于去噪过程以检测抓取姿势
扩散模型采用对比训练目标，这明确有助于去噪过程。
方法优于SOTA, 可以实现零短抓握检测

二、前言 Introduction

在本文中，我们探索训练语言驱动的代理来实施低级动作，重点关注通过图像观察来抓取对象的任务。具体来说，我们的假设集中在建立一个机器人系统，该系统可以按照给定的语言指令对任何通用物体执行抓取动作。
Grasp-Anythings++基于 Grasp-Anything数据集并由基础模型合成。在对象级别和部分级别上标记基本事实，提供对现实世界场景的全面理解。
作者认为Grasp-Anythings++成功地促进了基于视觉的任务和现实世界机器人实验的零镜头抓取检测。
提出了一种新的基于扩散模型的方法，因为它们在条件生成任务中已被证明的有效性
大多数现有文献采用潜在策略来结合视觉和文本特征[36]。我们通过采用新的训练策略来学习文本和图像特征来应对这一挑战，重点关注使用特征图作为抓取姿势生成的指导信息。
主要贡献是一个新的训练目标----结合特征图并明确地促进了去噪过程。

三、相关工作 Related Work

1.Grasp Detection 抓取检查

语言驱动的抓取检测任务的普遍解决方案是分为两个阶段：一个阶段用于基础目标对象，另一个阶段是根据基础视觉文本相关性合成抓取姿势
本文章中直接在大规模 Grasp-Anything++ 数据集上训练模型，以继承基于基础的数据集的功能，同时确保下游机器人应用程序的简单推理过程。Language-driven Grasp Detection Datasets 语言驱动的抓取检测数据集

2.Language-driven Grasp Detection Datasets 语言驱动的抓取检测数据集

Grasp-Anything++ 提供带有自然单词短语的对象实例描述在零件级别和物体级别描述了抓取对象，为机器人执行抓取提供了更多信息。
传统的语料库相对较小，并且没有指定应该抓取物体的哪一部分。会产生“抓取什么物”的模糊性！eg：“带签名的13号球衣”

3.Diffusion Models for Robotic Applications.

扩散模型已成为nwe SOTA
我们提出了一个明确有助于去噪过程的训练目标，去应对需要低级控制的机器人系统的可解释性问题的挑战。

四、GA++数据集 The Grasp-Anything++ Dataset

建立数据集分为三个关键步骤：

提示程序

图像合成和抓取姿势注释

后处理

1. Prompting Procedure 提示程序

我们利用 ChatGPT 生成两项任务的提示：i）场景描述：捕获场景排列的句子，包括提取的对象和零件列表；ii）抓取指令：提示指导机器人抓取特定的对象或零件。
抓取指令中的参考目标可以是物体或物体的一部分。

2. Image Synthesis and Grasp Annotation 图像合成与抓取标注

2.1 图像合成 Image Synthesis

首先利用大规模预训练的文本到图像模型，即稳定扩散从场景描述生成图像
用 OFA、Segment-Anything 和 VLPart执行一系列视觉基础和图像分割，以将引用的对象或部分定位到抓取指令

OFA：一个简单的序列到序列的学习框架，通过统一的基于指令的任务表示，统一以下视觉和语言、纯视觉和纯语言任务，包括理解和生成，例如文本到图像的生成、视觉接地、视觉问答(VQA)、图像字幕、图像分类、语言建模等。
Segment-Anythins：用于图像分割的新任务、模型和数据集。
VLPart：Facebook Research 开发的一个旨在进行开放词汇部分分割的对象检测和分割模型

2.2 抓取标注 Grasp Annotation

抓握质量通过净扭矩 T 来进行评论，判断是否使用该抓取姿势

T = (τ1 + τ2) − RMg

τi = KµsF cos αi，Ti为电阻

M：质量

g：重力加速度

K：几何特性

μs：静摩擦系数

F：施加的力

由于精确测量 M 存在物理困难，直接准确确定 T 具有挑战性、K 和 µs。所以使用代替方案T˜

反足抓取：T˜ = （cos α1 + cos α2）/ R

正值表示积极的抓握，其他值表示消极的抓

3. 后处理 Post Processing.

幻觉：稳定扩散时可能会产生低于标准的内容

eg：异常结构的剪刀，难以置信的反重力勺子

了解决这个问题，作者进行手动审查以过滤掉此类图像，并在图中提供定性示例。作者的流程包括在每个阶段进行检查，以防止重复或幻觉内容
为了解决这个问题，作者使用重复检查，用 BERTScore 过滤掉相同的提示，BERTScore 通过标记嵌入的余弦相似度来评估句子相似度。
Bert Score ：基于BERT模型的一种方法。它通过计算两个句子在BERT模型中的嵌入编码之间的余弦相似度来评估它们的相似度。BERTScore考虑了上下文信息和语义信息，因此能够更准确地衡量句子之间的相似度。

五、Language-driven Grasp Detection 语言驱动的抓取检测

六、实验 Experiments

Language-driven Grasp Detection Results Steup&Result

作者在零样本学习中利用了基础标签和新标签的概念。对 3.3 节中的 LVIS 数据集标签进行分类，以形成实验的标签。

按频率选择这些标签中的 70% 作为“Base”，并将剩余的 30% 分配给“New”。
使用调和平均值（“H”）来衡量总体成功率[92]。
要求预测抓取的 IoU 分数超过地面真实抓取的 25%，并且偏移角度小于 30°。

表 3 显示了不同配置下 LGD 的性能

作者的对比损失有助于更好的对象分类，如图 7 所示，不同语义类别之间的像素嵌入更清晰地分离，强调了对比损失在细化嵌入区分以改善类别区分方面的作用。

Zero-shot Grasp Detection Step&Result

作者设置了 LGD（无文本）版本，以及其他最先进的抓取检测方法 GR-ConvNet 、Det-Seg-Refine、GG-CNN 。在本实验中，作者使用了五个数据集：Grasp-Anything++、Jacquard、Cornell 、VMRD 和 OCID-grasp 。

总结

作者引入了 Grasp-Anything++，这是一个具有 1M 图像和 10M 抓取提示的大型数据集，用于语言驱动的抓取检测任务。提出了 LGD，一种基于扩散的方法来解决语言驱动的抓取检测任务。作者的扩散模型采用对比训练目标，这明确有助于去噪过程。根据经验，作者已经证明 Grasp-Anything++ 可作为基础抓取检测数据集。最后，作者的 LGD 提高了其他基线的性能，并且现实世界的机器人实验进一步验证了我们的数据集和方法的有效性。