【手部姿态估计】【论文精读】InterHand2.6M

最新推荐文章于 2024-12-21 10:34:38 发布

sxxblogs

最新推荐文章于 2024-12-21 10:34:38 发布

阅读量1.9k

点赞数

分类专栏：姿态估计文章标签：计算机视觉

本文链接：https://blog.youkuaiyun.com/sunnyblogs/article/details/124423687

版权

本文提出InterHand2.6M，一个包含2.65万个标定的单手和交互手势图片的大型3D手部姿态数据集，以及用于单图像3D交互手势姿态估计的InterNet模型。数据集在多视角摄影棚拍摄，采用半自动标注方法提高效率。InterNet可估计左右手2.5D姿态及相对深度，以解决交互手势姿态估计的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【Abstract】

双手交互是理解人类行为得到重要操作，然而，许多研究者集中于孤立的单手场景。因此我们首先提出了①大规模数据集：InterHand 2.6M ②baseline network，InterNet用于从Single image中估计3D交互手势，我们提出的InterHand包含2.。65万个标定的单手和交互手势图片。
（该论文所提出的创新点十分清晰，该论文是为了解决双手交互情境下手部姿态估计不准确的问题。基于此，本文提出了基础的baseline以及包含标注的双手交互数据集）

【Introduction】

之前的3D手部姿态估计方法都是针对单手姿态，主要方法多是给定一个裁剪后的手部图像，模型会估计手部关键点的3D位置。然而单手场景是有一定限制的，并不能涵盖所有的人类手部姿态，人类的动作主要是交互型的。为了解决这个问题，我们创建了一个大型数据集：InterHand 2.6M以及一个baseline InterNet。InterNet用于3D交互手势姿态估计。

InterHand2.6M是一个大规模RGB 3D手部姿态数据集，每一个手部序列包含单手和交互的左右手图像。InterHand是在一个精确准确的多视角摄影棚终拍摄的，该摄影棚配有80到140个高分辨率摄像机。至于3D关键点数据标注，使用了一个半自动方法：包括人工标注和自动标注。这种标注方法比纯手工标注效率更高，但标注精度与手工标注相当。

该论文所提出的InterNet网络可以估计从single image的3D单手以及交互手部姿态。我们设计的InterNet可以预测左右手，2.5D的左右手姿态以及相对右手的深度。左右手可以判断所输入的图像中的手是左手还是右手。因此，InterN