【手部姿态估计】【论文详读】3D Hand Pose Estimation with a Single Infrared Camera via Domain Transfer Learning

该研究提出了一种在运动模糊条件下使用红外图像进行3D手部姿态估计的方法,通过领域转移学习从深度图像到红外图像。由于红外图像受运动模糊影响较小,该方法在快速手运动中也能实现准确的估计,解决了现有基于深度图像方法的局限性。利用自我监督和一致性损失,训练了一个手图像生成器和两个手姿态估计器,实现了对快速手运动的准确跟踪。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【Abstract】

以往的方法都成功地从未模糊的深度图像中估计三维手部姿态。然而,当深度图像由于快速运动而受到运动模糊干扰时,性能便会下降。在本文中,我们利用红外图像(IR)作为输入,IR图在快速的运动下只有较弱的运动模糊。该方法是基于从depth到IR的domain transfer learning。需要说明的是,因为我们没有带有手骨架标注信息的红外图像,因此选择自我监督,而不是使用骨架标签进行直接监督。我们通过使用一致性损失的自我监督,基于成对的IR图与深度图训练一个手图像生成器(HIG)和两个手姿态估计器(HPEs),由现有的HPE训练成对深度和手骨架指导。然后在弱模糊的红外图像上对基于红外的HPE进行细化。定性和定量实验表明,该方法可以准确地快速估计运动模糊条件下的三维手部姿态,而现有的基于深度的方法则失败了。
(这篇文章是很有新意的,所用的数据集为不带有标注的成对的IR-depth数据集,用于解决AR/VR场景下因运动模糊所造成的手部姿态估计不准确的问题,这是一篇应用型论文。)

【Introduction】

手姿态估计是计算机视觉(CV)、增强现实(AR)和虚拟现实(VR)领域中一个研究方向。该技术对于使用基于手的交互的各种应用程序都是必不可少的,如手语、远程协作、系统控制和虚拟对象的操作等。在这种应用程序中,当用户打算快速执行任务时,经常会发生快速的手运动。然而,在快速运动中,基于视觉的解决方案的典型输入,即RGB和深度图像,会受到图像伪影的严重污染,即运动模糊。在运动模糊下,使用RGB或深度输入的先进方法产生不准确的手姿态估计。因此,快速手运动下的三维手姿态估计是至关重要的。在这项工作中,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值