【文献阅读】手物位姿估计| Interacting Hand-Object Pose Estimation via Dense Mutual Attention

原创

已于 2023-02-15 17:42:27 修改 · 1.5k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2023-02-15 17:39:14 首次发布

本文提出一种新的密集相互注意机制，用于3D手物联合位姿估计，以更有效地建模手和物体之间的细粒度交互。这种方法通过在手和物体图之间直接进行节点到节点的特征聚合，避免了迭代优化和稀疏关键点交互的限制，实现了高质量和实时推理速度的物理上可信的姿势估计。在大规模基准数据集上的实验表明，该方法优于现有最先进的技术。

摘要

3D手物联合位姿估计的主要重点是有效地模拟手物之间的相互作用。现有的工作要么要依赖迭代优化的交互约束，要么只考虑采样的手和物体关键点之间的稀疏相关性。

本文提出一种密集的相互注意力机制，它能够建模手和物体之间的细粒度依赖关系。具体地，首先从单眼图像中分别估计粗糙的手网格和物体网格，根据网格结构构造手和物体的图。

然后根据粗糙的网格位置对节点特征进行空间采样。

对于每个手节点，我们通过学习到的注意力来聚合来自每个物体节点的特征，而对于每个物体节点，反之亦然。由于如此密集的相互关注，我们的方法能够产生具有高质量和实时的推理速度的物理上可信的姿态。

在大型基准数据集上进行的大量定量和定性实验表明，我们的方法优于最先进的方法。

code

1 引言

XR和人机交互都要从单目相机中对手物交互进行精确和有效的姿态估计。

尽管在开发有效的三维手姿态估计算[17,25,40,50,47]方面做出了巨大的努力，但由于严重的相互遮挡和不同的手物体操作方式，联合手-物体姿态估计仍然尤其具有挑战性。

未能解决上述挑战的方法往往会产生物理上不可信的配置，如相互渗透和不接触。

为了避免产生不希望的姿势，因此需要深入了解手和相互作用的物体之间的相关性。

三维手物体姿态估计的研究工作可分为基于优化的方法和基于学习的方法。

基于优化的方法[48,13,10]可以推广到不同的物体类，而优化过程需要多次迭代才能收敛，这不适用于XR等实时应用。

相比之下，基于学习的方法[26,14,12,8,11]可以实现实时推理。在基于优化的方法的启发下，引入了软接触损失[14,12]，隐式地引导网络追求合理的手-物体交互。

为了更有效的建模，其他工作集中在网络设计中明确学习手-物体相关[8,6]。最近，一些基于注意力的作品[41,11]考虑其在建模复杂相关方面的有效性。在[41]中，一种自我注意机制被用来捕获手或物体的特征依赖性，它们之间的交互作用通过全局特征的交换来建模。[11]交叉注意被用来模拟手和物体之间的相关性。

然而，上面所有的方法都只模拟了来自手和物体的一组预定义的关键点或特征之间的稀疏交互，而不管手与物体的交互实际上发生在表面的物理区域上。

在这项工作中，我们建议通过一个密集的相互注意机制来建模细粒度的手-物体交互。与[41]只通过全局特征迁移图间依赖不同，我们允许通过相互注意直接节点到节点的特征聚合。

以手图中的一个节点为例，计算所有物体节点的物体对手的注意，然后将手节点特征与注意加权的物体节点特征融合，显式地建模细粒度的交互相关性。

采用类似的计算来细化针对手物注意的物体节点特征。最后，我们通过配备了所提出的相互注意层的图卷积块来改进手和物体的姿态。

我们表明，我们的方法不像[48,13]那样需要迭代优化，密集的顶点级相互注意比基于稀疏关键点的方法[11,8]更有效地建模手-物体交互。综上所述，我们的贡献如下。

我们提出了一种新的密集相互注意机制，通过在手和物体图之间聚合和转移节点特征，有效地建模手-物体的交互。
我们设计了一种新的手-物体姿态估计管道，便于所提出的相互注意。大量的实验表明，在大型基准数据集上比最先进的方法有更优越的结果。

2 相关工作

2.1 手物位姿估计

以往的工作大多分别处理三维手姿态估计[17,25,40,50,47]和目标姿态估计[27,31,44,49]。

近年来，由于手与物体交互时的强相关性，联合手-物体姿态估计得到了更多的焦点[14,26,28,12,8,13,11]。

对于基于学习的方法，Hasson[14]提出了吸引和排斥损失惩罚物理不合理的重建. Shaowei[28]采用一个半监督的学习框架的上下文推理的手和对象表示。

为了解决缺乏三维地面真相的问题，Kalilin等人[26]引入了一个在线合成和探索模块，在训练过程中从预定义的合理抓取中生成合成的手对象姿势。

与上述工作相比，基于优化的方法[13,48,10]通过首先单独估计初始手和目标姿态，然后用接触约束联合细化它们。

然而，这些方法都是耗时的，因为优化过程通常需要多次迭代才能收敛，从而限制了它们在实时XR系统中的应用。

2.2 基于图神经网络的方法

图卷积网络（GCNs）由于手网格和运动树自然形成图，在三维手姿态估计[9,40,20,5]中得到了广泛的应用。Bardia等人[8]构建了一个自适应图单元（HOPE-Net），将手关节和对象边界框角点与可学习的相邻矩阵相结合。Lin等人的[16]用类似于HOPE-Net的GCNs编码初始2D姿态，作为非自回归变换器中后续三维重建的先验。

然而，上述方法仅从手-对象交互场景中构造稀疏图，而不估计手的形状，因此缺乏表达性。

Tze等人[41]提出了一种协作方法来迭代地细化密集的手和对象图的结果。

然而，迭代细化的计算代价很高，而且对象表示中的无模型方法往往不能恢复准确的对象形状。