CVPR2019CrossInfoNet:Multi-Task Information Sharing Based Hand Pose Estimation论文阅读完毕

最新推荐文章于 2024-07-26 14:43:53 发布

原创

最新推荐文章于 2024-07-26 14:43:53 发布 · 1.1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#cvpr2019 #手势估计

Abstract

本文聚焦于计算机视觉中的热点问题（用CNN从单张深度图中估计手势），主要贡献在于提出CrossInfoNet，这个网络把手势估计任务划分为两个子任务（手掌估计与手指估计），并且在这两个子任务中cross-connection共享信息。另外提出，基于heat-map指导的特征提取。

1.Introduction

3D手势估计一直是计算机视觉中的一个热点，输入数据包含单目RGB，立体RGB，深度图，方法可以分为生成式和判别式两类。由于大量数据的增加与计算能力的增强，CNN展现了很强的能力，已经编程目前的主流方法。

在2017年，HIM2017（在深度图上手势估计）受到许多研究团队关注，竞赛总结文章[43]中提出的问题也是我们关心的。

首先，把深度图看做2D图像，并且直接回归3D关节点坐标是手势估计的常见pipeline。尽管把2.5D深度图转为3D体素会保留更多信息，但是却面临繁多的参数，而且仍存在信息缺失。在我们的工作里，我们倾向于认同[39]的观点，利用2DCNN的优势，努力从2D输入中挖掘更多的信息。

第二，设计有效的网络会受到更多的关注。在机器学习领域中，多任务学习通过信息共享在保留更多内在信息方面比单任务更有优势。同时，多任务学习也可以使模型有更好的泛化能力。然而，多任务学习在基于CNN的手势估计中，还没有获得较多关注。如[39]所言，他们率先尝试在多任务set-up中把手势估计回归结果和heat-map检测融合起来。受他们的启发，我们设计为手势估计以多任务的方式设计了一个新的CNN结构。层次模型是手势估计网络之一，也展示了较好的性能。它通常把手势估计问题，通过分别处理不同手指或者不同类型的关节，划分为多个子任务。直观地来说，手掌关节点比那些更灵活的手指关节有更紧密的ite-ups(关系)。整体的手势主要受手掌关节点状态决定，而局部手势由手指关节来反映。基于这一知识，我们在多任务中设计了新的层次模型。我们提出的架构有两个分之，分别对应手掌关节回归子任务和手指关节回归子任务。通过两个分支间的cross-connections(交叉连接)，一个分支中的noise(噪声)变成另一个分支中的补充增强信息。因多任务信息共享，这将有助于每个分支聚焦与它自己的特定子任务。

第三，输出的表示方法可以别分为概率密度图(heat-maps)和每个关节点的3D坐标。因为2D深度图和3D关节点坐标的映射是非线性的，这将阻碍学习进程，阻碍网络准确第估计关节点坐标。相比之下，用heat-map表示输出比单个关节点位置提供更多关节相关性信息，这将有利于网络获取更好的特征图。在[43]的分析中已经总结出，基于heat-maps方法比直接坐标回归的方法更好。然而，在基于Heatmap的方法中，最终的关节点坐标通常是在heat-maps上执行max操作来推出。max操作是不可导的，它不得不作为一个后处理，不是端到端的训练。考虑了两种表示的优点之后，我们提出了heat-map指导的特征提取网络结构。事实上，我们的想法巧妙地应用了多任务参数共享。

总之，为了实现基于CNN的从单张深度图的手势估计，我们的工作的主要贡献如下：

1.一个新的多任务手势回归网络。它利用多任务学习的信息共享机制。我们用层次模型把最终的任务划分到手掌关节回归和手指关节回归。通过分支间的交叉连接，产生的"attention mask"指导一个分支聚焦与手掌关节回归，另一个分支聚焦于手指关节点回归。因为"att