基于自注意力机制的2D手部姿态估计方法解析
在计算机视觉领域,2D手部姿态估计是一个具有挑战性的任务。传统的整体回归方法在处理图像和姿态等不同领域的回归时存在困难,且对局部证据的泛化能力较差,对手部位置和翻译变化较为敏感。不过,当与强大的特征提取算法和合适的抗锯齿滤波器结合时,整体回归方法仍能展现出有效性。
1. 方法概述
为了从单张RGB图像中估计手部的2D关键点坐标,采用了前馈CNN架构,该架构可在单阶段直接生成坐标,无需中间监督。网络主要分为两部分:茎(stem)和尾(tail)。
2. 提出的架构
- 基于DenseNets的设计 :借鉴DenseNets的概念,构建的网络中后续层会接收所有前层的额外输入,每层将自身的特征图通过通道拼接传递给后续层,利用所有前层的“集体知识”。
- 高效特征提取器 :为减少参数数量,采用了倒置残差块。使用深度可分离卷积层替代标准卷积层,可将计算量减少 $k_f^2 \cdot d_o/(k_f^2 + d_o)$,其中 $k_f$ 为内核大小,$d_o$ 为输出深度大小。第一个卷积层将深度大小扩展 $e$ 倍,最后一个卷积层将输入深度大小除以相同倍数,这里 $e = 4$。
3. 茎(Stem)设计
茎部分包含多个密集块,与原始设计不同的是,其中包含倒置残差块。具有拼接跳跃连接的架构能保留更多信息,因为拼接连接允许后续层重用中间表示,从而提高性能。在非线性方面,使用了最近提出的Mish激活函数,其定义为 $f(x) = x \cdot \tanh(\ln
超级会员免费看
订阅专栏 解锁全文
1258

被折叠的 条评论
为什么被折叠?



