【Abstract】
以往的方法都成功地从未模糊的深度图像中估计三维手部姿态。然而,当深度图像由于快速运动而受到运动模糊干扰时,性能便会下降。在本文中,我们利用红外图像(IR)作为输入,IR图在快速的运动下只有较弱的运动模糊。该方法是基于从depth到IR的domain transfer learning。需要说明的是,因为我们没有带有手骨架标注信息的红外图像,因此选择自我监督,而不是使用骨架标签进行直接监督。我们通过使用一致性损失的自我监督,基于成对的IR图与深度图训练一个手图像生成器(HIG)和两个手姿态估计器(HPEs),由现有的HPE训练成对深度和手骨架指导。然后在弱模糊的红外图像上对基于红外的HPE进行细化。定性和定量实验表明,该方法可以准确地快速估计运动模糊条件下的三维手部姿态,而现有的基于深度的方法则失败了。
(这篇文章是很有新意的,所用的数据集为不带有标注的成对的IR-depth数据集,用于解决AR/VR场景下因运动模糊所造成的手部姿态估计不准确的问题,这是一篇应用型论文。)
【Introduction】
手姿态估计是计算机视觉(CV)、增强现实(AR)和虚拟现实(VR)领域中一个研究方向。该技术对于使用基于手的交互的各种应用程序都是必不可少的,如手语、远程协作、系统控制和虚拟对象的操作等。在这种应用程序中,当用户打算快速执行任务时,经常会发生快速的手运动。然而,在快速运动中,基于视觉的解决方案的典型输入,即RGB和深度图像,会受到图像伪影的严重污染,即运动模糊。在运动模糊下,使用RGB或深度输入的先进方法产生不准确的手姿态估计。因此,快速手运动下的三维手姿态估计是至关重要的。在这项工作中,