论文笔记--Robust 3D Hand Pose Estimation in Single Depth Images: from Single-View CNN to Multi-View CNNs

单一深度图像中的鲁棒性三维手部姿势估计:从单视图CNN到多视图CNN

摘要

  铰接式手的姿势估计在人机交互中起着重要作用。尽管最近取得了一些进展,但现有方法的准确性仍然不能令人满意,部分原因是由于嵌入高维和非线性回归问题的困难。与现有的用单一深度图像回归手部姿势的判别方法不同,我们建议首先将查询的深度图像投射到三个正交平面上,并利用这些多视图投影来回归二维热图,估计每个平面上的关节位置。然后,这些多视图热图被融合,以产生最终的三维手部姿势估计,并学习姿势先验。实验表明,在一个具有挑战性的数据集上,所提出的方法在很大程度上超过了最先进的方法。此外,一个跨数据集的实验也证明了所提方法的良好概括能力。
在这里插入图片描述

图1:我们提出的多视图回归框架的概述。我们通过将3D点投射到三个正交平面上来生成三个视图的热图。三个CNN被平行训练以将每个视图的投影图像映射到其相应的热图上,然后将其融合在一起以估计三维手关节的位置。

介绍

  长期以来,三维手部姿势估计问题在计算机视觉界引起了很大的关注,因为它在人机交互中起着重要作用,如虚拟/增强现实应用。尽管最近在这一领域取得了进展[14, 18, 21, 23, 29],稳健和准确的手部姿势估计仍然是一项具有挑战性的任务。由于大的姿势变化和手部运动的高维度,通常很难建立一个从图像特征到手部姿势参数的有效映射。
  用于手部姿势估计的数据驱动的方法训练判别模型,如等距自组织图[4]、随机森林[7, 21, 24, 25]和卷积神经网络(CNN)[29],以映射图像特征到手部姿势参数。随着大型注释的手部姿势数据集的出现[21, 24, 29],数据驱动的方法变得更有优势,因为它们不需要复杂的模型校准,并且对不良的初始化具有鲁棒性。
  我们在本文中重点讨论基于CNN的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值