(CVWW 2015) Hands Deep in Deep Learning for Hand Pose Estimation
这篇文章是使用CNN网络来直接输出关节点位置。本文的特点是速度很快并且精度可以通过refinement提高。作者主要的贡献是两个部分:
- 设计一个加入了prior的网络输出手的关节点
- 基于上述关节点预测,对每一个关节点用一个refinement网络来进行更精确的关节点输出。甚至可以用迭代的方式多次refine关节点位置
文章直接对比了四个网络:shallow,deep,multi-scale,和deep with prior。
首先对于前面三者的对比,作者的观点:“unsurprisingly, the multi-scale approach performs better than the deep architecture, which performs better than the shallow one.” 多尺度网络>深网络>浅网络(的确unsurprisingly)。但是作者认为手势估计是一个非常复杂的任务,自由度非常高,在那么一个庞大的解空间里面直接搜寻一个最优解似乎是很不容易的。但是作者借着【1】的思想,认为“a low dimensional embedding is sufficient to parameterize the hand’s 3D pose”,所以不同于直接预测关节点位置,作者希望能预测low dimensional空间的参数。因为在【1】中,各种手势被认为是rely on a linear embedding,换句话说手势可以被认为是一些低维的basis configuration的线性组合。这样相当