13、基于自注意力机制的2D手部姿态估计方法解析

基于自注意力机制的2D手部姿态估计方法解析

在计算机视觉领域,2D手部姿态估计是一个具有挑战性的任务。传统的整体回归方法在处理图像和姿态等不同领域的回归时存在困难,且对局部证据的泛化能力较差,对手部位置和翻译变化较为敏感。不过,当与强大的特征提取算法和合适的抗锯齿滤波器结合时,整体回归方法仍能展现出有效性。

1. 方法概述

为了从单张RGB图像中估计手部的2D关键点坐标,采用了前馈CNN架构,该架构可在单阶段直接生成坐标,无需中间监督。网络主要分为两部分:茎(stem)和尾(tail)。

2. 提出的架构
  • 基于DenseNets的设计 :借鉴DenseNets的概念,构建的网络中后续层会接收所有前层的额外输入,每层将自身的特征图通过通道拼接传递给后续层,利用所有前层的“集体知识”。
  • 高效特征提取器 :为减少参数数量,采用了倒置残差块。使用深度可分离卷积层替代标准卷积层,可将计算量减少 $k_f^2 \cdot d_o/(k_f^2 + d_o)$,其中 $k_f$ 为内核大小,$d_o$ 为输出深度大小。第一个卷积层将深度大小扩展 $e$ 倍,最后一个卷积层将输入深度大小除以相同倍数,这里 $e = 4$。
3. 茎(Stem)设计

茎部分包含多个密集块,与原始设计不同的是,其中包含倒置残差块。具有拼接跳跃连接的架构能保留更多信息,因为拼接连接允许后续层重用中间表示,从而提高性能。在非线性方面,使用了最近提出的Mish激活函数,其定义为 $f(x) = x \cdot \tanh(\ln

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值