Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】

最新推荐文章于 2025-05-04 17:45:59 发布

原创

最新推荐文章于 2025-05-04 17:45:59 发布 · 814 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#3d #深度学习 #人工智能

文章提出ViL3DRel模型，用于解决机器人理解自然语言中的3D空间关系问题。该模型利用空间自注意力模块编码3D空间关系，并通过教师-学生训练策略促进跨模式关系学习。与现有方法相比，ViL3DRel更有效地结合了绝对空间位置和相对空间关系，提高了3D对象接地的准确性。

code： https://cshizhe.github.io/projects/vil3dref.html
author： 巴黎文理研究院

动机

在这里插入图片描述
为了在现实世界中执行人类指令，机器人应该理解自然语言，并能够在3D环境中ground上述物体。语言表达通常是描述物体在3D场景中的relative spatial relations来指定物体的。比如上图中的这两个例子，就要消除同一类目标中的歧义目标。

鉴于 spatial language 的重要性，许多方法长时间莫3DVG中的空间关系。早期大家使用GNN来建模关系，但是他们只能捕捉最近邻的关系。近年来，Transformer架构被广泛采用，因为它可以直接建模 pair object之间的关系。然而，使用Transformer来理解用自然语言表达的三维空间关系仍然是一个开放的研究问题。

这篇文章中，作者提出了一个视觉和语言的三维关系推理模型（ViL3DRel）来解决三维物体接地中的上述问题。具体有以下贡献：

提出了一个空间自注意力模块来显式编码成对的3维空间关系，以促进语言条件下的空间理解。
我们采用了一种teacher-student 训练策略，促进了跨模式的关系学习。

一阶段方法：[18，23，28]
detection-then-matching（两阶段）：[1, 7, 8, 9，13，14，15，16，24]

3DVG-Transformer[13]最像本篇文章，编码了目标间的空间距离，本篇文章编码了目标间的相对距离和相对方向。

方法

在这里插入图片描述
给定一段有M个词的文本，用BERT的前三层进行编码，得到一个序列的词特征： $s_{cls}, s_1, ... , s_M$ 。 $s_{cls}$ 表示类别，在计算spatial attention matrix中被用到。 $s_1, ... , s_M$ 表示每一个词的特征，用来在 cross-attention模块中使用。