Stacked Hourglass Networks人体姿势估计-论文笔记

最新推荐文章于 2025-03-08 21:50:54 发布

翻译最新推荐文章于 2025-03-08 21:50:54 发布 · 348 阅读

·

2

·

人工智能同时被 3 个专栏收录

151 篇文章

订阅专栏

35 篇文章

订阅专栏

17 篇文章

订阅专栏

本文介绍StackedHourglass网络在人体姿态估计的应用，该网络通过堆叠多个hourglass模块，处理图片的不同尺度特征，以提高关键点定位的准确性。网络采用残差模块和中间监督学习策略，实验证明在FLIC和MPII数据集上性能优异。

1 简介

本文依据《Stacked Hourglass Networks for Human Pose Estimation》翻译总结。

Stacked Hourglass：
（1）一个最终姿势的估计是需要理解整个身体的。所以最好是图片不同尺度的识别。Stacked Hourglass对所有尺度下的特征都处理，以便更好的捕获关于身体的各种空间关系。
（2）仅关注RGB图片的单个人姿势的关键点定位。
（3）没有使用unpolling和deconv 层，使用的是simple nearest neighbor upsampling 和skip 连接进行top-down处理。
（4）多个hourglass模块的堆叠。重复bootom-up、top-down推断。

Stacked Hourglass预测案例如下，各个关键点（脖子、肘、手腕、膝盖、脚踝）的热图，然后整合成姿势估计。
在这里插入图片描述

2 网络结构

2.1 单个Hourglass的设计

单个hourglass结构如下图所示，是对称的。卷积和max 池化层处理特征到非常低的分辨率。在生成最低分辨率后，网络开始上采样和跨尺度特征的结合。
在这里插入图片描述

2.2 残差模块

在上一节图中的每个立方体是一个残差模块，如下图所示。残差模块输出256特征。
在这里插入图片描述

2.3 带有中间监督的堆叠hourglass

我们堆叠了很多hourglass，重复bootom-up、top-down推断，容许评估整个图片的初始估计和特征。

这种方法的一个关键是中间热图的预测，在这儿我们引入了一个loss。即中间监督学习。

中间监督的过程详见下面右图，最后的加号处理三部分内容，第一部分是上一个hourglass的输出，第二部分是本hourglass的输出，第三部分是中间热图经过1*1卷积后的输出。这三部分相加后作为单个hourglass的输出。
在这里插入图片描述

3 实验结果

可以看到我们的模型在FLIC数据肘、手腕上的pck（percentage of correct keypoints）的分数都最高。
在这里插入图片描述

在MPII数据上分数也很高，如下图：
在这里插入图片描述

3.1 堆叠效果

如下图，分别是2、4、8的堆叠hourglass的结果，可以看到橙色的堆叠8个的pck结果最好。

在这里插入图片描述

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。