目录
2.Attribute-Based Methods 基于属性的方法
四、LEARNING ATTRIBUTE-BASED GRASPING 学习基于属性的抓取
4.2 Adversarial Adaptation 对抗性适应
4.3 One-Grasp Adaptation 一次抓取适应
前言
本文试图通过利用有助于识别、掌握和快速适应新领域的对象属性(例如颜色、形状和类别名称等)来应对这一挑战。在这项工作中,我们提出了一种端到端的编码器-解码器网络,用于学习具有数据高效适应能力的基于属性的机器人抓取。
一、摘要 Abstract
- 使用门控注意力机制融合工作空间图像和查询文本的嵌入,并学习预测实例抓取的可供性
- 模型在模拟中是自我监督的,仅使用各种颜色和形状的基本对象,但可以推广到新环境中的新对象
- 出了两种适应方法,对抗性适应和单抓适应。
二、介绍 Introduction
- 设计了一个由多模态编码器(即编码视觉和文本数据)和可供性解码器(即预测实例掌握可供性)组成的架构
- 设计了代表 3-DOF 抓取姿势的深度抓取神经网络
- 采用了抓取前后的对象持久性方程;所抓取对象的视觉嵌入应该等于该对象的文本嵌入。
- 通过在模拟中仅使用基本对象(各种颜色和形状)来学习泛化到新对象和场景的对象属性。
- 对抗性适应利用未标记图像的增强数据来调节图像编码器,而单抓适应则利用增强数据更新端到端模型,只需要一次成功的抓握试验。
三、相关工作 Related Work
1. Instance Grasping 实例抓取
- 机器人抓取现在的方法和工作可以大致分为:数据驱动和模型驱动的方法,实例抓取和不区分的抓取的任务
- 作者方法是数据驱动的,重点在实例抓取。模型为端到端的,并利用对象属性进行泛化
- 作者工作的主要特点有两个:
- 收集一个小得多的合成基本对象数据集来学习基于通用属性的抓取。
- 通用抓取模型能够进一步适应新的对象和领域
2.Attribute-Based Methods 基于属性的方法
- 对象属性是对象性质的中层抽象,并且可以跨对象类别进行推广
- 余弦相似度:度量两个向量之间相似度的方法,衡量的是两个向量之间的夹角,而不是它们的长度。
- 余弦相似度损失:1 - Cosine Similarity
3.Model Generalization 模型泛化
- 模型泛化:指机器学习模型在未见过的数据上表现良好的能力。化能力强的模型能够学习到数据中的潜在规律,而不是仅仅记住训练数据的具体特征。
- 域不变特征:是指在不同领域(domain)之间保持一致的特征表示。这些特征能够在源领域(如训练数据集)和目标领域(如测试数据集)之间有效地泛化,使得模型在面对未知数据时依然能够保持性能。
- 无监督的对抗性适应:是一种在机器学习,特别是在领域适应(Domain Adaptation)领域中使用的技术。这一技术的目标是使一个在源领域(source domain)上训练的模型能够有效地在目标领域(target domain)上进行应用,而目标领域不提供标注数据。通过对抗性训练,这种方法可以降低源领域和目标领域之间的分布差异,从而增强模型的泛化能力。
- 特征适配器:是一种数据处理和转换的框架或工具,通常用于将原始输入数据(如文本、图像、音频等)转换成机器学习模型可以接受的特征向量。这种转换可能涉及清洗、预处理、特征选择和特征提取等步骤。
- 预训练过程中应用了域随机化模型。除了域随机化之外,作者还提出了两种适应方法,即域适应和小样本学习的形式。
- 作者的抓取适应方法由无监督的对抗性适应和有监督的小样本学习组成,共同更新抓取管道。
- 作者受到小样本学习的启发,方法改为首先学习一个对对象属性进行编码的联合度量空间,然后在测试新对象时微调我们模型的识别和掌握。
四、LEARNING ATTRIBUTE-BASED GRASPING 学习基于属性的抓取
4.1 Multimodal Encoder 多模态编码器
作区图像和查询文本分别编码并使用门控注意力进行融合。融合矩阵 Fatt 针对不同的抓取角度旋转 N 个方向,然后输入抓取可供性解码器。解码器学习预测目标抓取成功的像素级分数,并且我们运行-贪婪抓取策略并在抓取后获得图像vpost。通过利用抓取前后的对象持久性方程,我们学习了一个度量空间,其中鼓励与相似属性对应的多模态嵌入向量更加接近。请注意,我们将 φv,spa 和 GAP 的组合表示为 φv,vec,它将图像编码为矢量。
- gate-attention:简单来说,门控注意力允许模型在处理输入时,有选择性地关注某些信息,同时抑制不相关的信息。
- φt:是一个深度平均网络,由三个完全连接的层和交错的 ReLU 激活函数表示。
- ϕv,spa: 3D视觉矩阵
- Fatt:融合矩阵,扩展矩阵与 phiv,spa 逐元素相乘
- 贪婪机制:简单来说就是每一步都做最优的选择
该公式为运动误差,左边一部分为衡量当前之间的偏差,右边部分尽量让背景分数变小。背景分数小的优势是可以更好的应用于现实世界,让模型有更多的注意力去关注前景的抓取物体
4.2 Adversarial Adaptation 对抗性适应
- 对抗性适应通过强制执行类似于生成对抗网络(GAN)[49]的两人游戏来规范图像编码器的权重。域分类器(即鉴别器)学习区分两个域,而图像编码器学习通过学习域不变特征来欺骗域分类器。为了实现对抗性训练,我们通过具有反向前向和反向传播方案的梯度反转层(GRL)[50]连接编码器和鉴别器。
4.3 One-Grasp Adaptation 一次抓取适应
简单总结:
一次抓取适应的主要思想是,在成功抓取了对象A之后,由于模型学习到了对象的特征和属性,这些信息可以帮助模型更快地适应与对象A具有相似属性的对象B。因此,模型在面对类似对象时,适应的距离会较短,这使得它能够有效地进行抓取。
具体来说,当模型执行了一次成功抓取后,它在嵌入空间中会将与对象A相似的对象(如B)靠得更近。这种相似性允许模型在没有太多额外数据的情况下,快速地适应并提升对对象B的抓取能力。
五、总结 Conclusion
提出了一种新颖的基于属性的机器人抓取系统。提出了一种端到端架构来联合学习对象属性和操作。工作空间图像和查询文本被编码到联合度量空间中,并在抓取之前和之后通过对象持久性进一步监督。我们的模型在仅使用基本对象的模拟中进行自我监督,但表现出良好的泛化能力。为了进一步适应新物体和现实世界场景,我们提出了两种数据高效的适应方法,对抗性适应和单抓适应,只需要未标记的物体图像或一次抓握试验。