code: https://cshizhe.github.io/projects/vil3dref.html
author: 巴黎文理研究院
动机

为了在现实世界中执行人类指令,机器人应该理解自然语言,并能够在3D环境中ground上述物体。语言表达通常是描述物体在3D场景中的relative spatial relations来指定物体的。比如上图中的这两个例子,就要消除同一类目标中的歧义目标。
鉴于 spatial language 的重要性,许多方法长时间莫3DVG中的空间关系。早期大家使用GNN来建模关系,但是他们只能捕捉最近邻的关系。近年来,Transformer架构被广泛采用,因为它可以直接建模 pair object之间的关系。然而,使用Transformer来理解用自然语言表达的三维空间关系仍然是一个开放的研究问题。
这篇文章中,作者提出了一个视觉和语言的三维关系推理模型(ViL3DRel)来解决三维物体接地中的上述问题。具体有以下贡献:
- 提出了一个空间自注意力模块来显式编码成对的3维空间关系,以促进语言条件下的空间理解。
- 我们采用了一种teacher-student 训练策略,促进了跨模式的关系学习。
一阶段方法:[18,23,28]
detection-then-matching(两阶段):[1, 7, 8, 9,13,14,15,16,24]
3DVG-Transformer[13]最像本篇文章,编码了目标间的空间距离,本篇文章编码了目标间的相对距离和相对方向。
方法

给定一段有M个词的文本,用BERT的前三层进行编码,得到一个序列的词特征: s c l s , s 1 , . . . , s M s_{cls}, s_1, ... , s_M scls,s1,...,sM。 s c l s s_{cls} scls表示类别,在计算spatial attention matrix中被用到。 s 1 , . . . , s M s_1, ... , s_M s1,...,sM 表示每一个词的特征,用来在 cross-attention模块中使用。
给定N个proposals后,首先通过PointNet++提取出语义特征 o i 0 o^0_i oi0,经过l层self-attention后,得到了N个 o i l o^l_i oil embedding。将N个proposals各自对应的绝对空间位置特征 l i l_i l

文章提出ViL3DRel模型,用于解决机器人理解自然语言中的3D空间关系问题。该模型利用空间自注意力模块编码3D空间关系,并通过教师-学生训练策略促进跨模式关系学习。与现有方法相比,ViL3DRel更有效地结合了绝对空间位置和相对空间关系,提高了3D对象接地的准确性。
最低0.47元/天 解锁文章
1493

被折叠的 条评论
为什么被折叠?



