13、基于自注意力机制的2D手部姿态估计方法解析

最新推荐文章于 2025-11-22 20:28:24 发布

sprite

最新推荐文章于 2025-11-22 20:28:24 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：光电赋能机器人未来文章标签： 2D手部姿态估计自注意力机制倒置残差块

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sprite/article/details/152313504

光电赋能机器人未来专栏收录该内容

31 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于自注意力机制的2D手部姿态估计方法解析

在计算机视觉领域，2D手部姿态估计是一个具有挑战性的任务。传统的整体回归方法在处理图像和姿态等不同领域的回归时存在困难，且对局部证据的泛化能力较差，对手部位置和翻译变化较为敏感。不过，当与强大的特征提取算法和合适的抗锯齿滤波器结合时，整体回归方法仍能展现出有效性。

1. 方法概述

为了从单张RGB图像中估计手部的2D关键点坐标，采用了前馈CNN架构，该架构可在单阶段直接生成坐标，无需中间监督。网络主要分为两部分：茎（stem）和尾（tail）。

2. 提出的架构

基于DenseNets的设计 ：借鉴DenseNets的概念，构建的网络中后续层会接收所有前层的额外输入，每层将自身的特征图通过通道拼接传递给后续层，利用所有前层的“集体知识”。
高效特征提取器 ：为减少参数数量，采用了倒置残差块。使用深度可分离卷积层替代标准卷积层，可将计算量减少 $k_f^2 \cdot d_o/(k_f^2 + d_o)$，其中 $k_f$ 为内核大小，$d_o$ 为输出深度大小。第一个卷积层将深度大小扩展 $e$ 倍，最后一个卷积层将输入深度大小除以相同倍数，这里 $e = 4$。

3. 茎（Stem）设计

茎部分包含多个密集块，与原始设计不同的是，其中包含倒置残差块。具有拼接跳跃连接的架构能保留更多信息，因为拼接连接允许后续层重用中间表示，从而提高性能。在非线性方面，使用了最近提出的Mish激活函数，其定义为 $f(x) = x \cdot \tanh(\ln

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。