论文笔记----Stacked Hourglass Networks for Human Pose Estimation

本文介绍了一种创新的“堆叠沙漏”网络架构,用于预测人体姿态。该网络通过自下而上、自上而下的信息处理和整合,捕捉不同尺度的图像信息。网络采用对称的沙漏拓扑结构,通过多个沙漏模块的端到端连接,实现跨尺度的双向推理。每个沙漏模块包含下采样和上采样的过程,以保留不同分辨率下的空间信息。最终,网络输出关节出现概率的热图。中间监督的使用对网络性能提升至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述:

        引入了一个新颖的“堆叠沙漏”网络设计来预测人类姿势。该网络可捕获和整合图像所有尺度的信息。我们将该设计称为沙漏,其基础是我们对用于获得网络最终输出的汇集和后续上采样步骤的可视化。像许多产生像素输出的卷积方法一样,沙漏网络将分辨率降低到非常低,然后在多个分辨率上对特征进行上采样和组合。另一方面,沙漏不同于以前的设计,主要在于其更对称的拓扑结构。

         通过将多个沙漏模块端到端地连续放置在一起来扩展单个沙漏。这允许跨尺度重复自下而上、自上而下的推理。结合中间监督的使用,重复的双向推理对于网络的最终性能至关重要。

 网络结构和方法:

        网络必须有某种机制来跨规模有效地处理和整合功能。一些方法通过使用独立的管道来解决这个问题,这些管道以多种分辨率独立处理图像,并在以后的网络中组合特征[15,18]。相反,我们选择使用带有跳过层的单个管道来保留每个分辨率下的空间信息。该网络的最低分辨率为4×4像素,允许应用更小的空间滤波器来比较图像整个空间的特征。

         沙漏设置如下:卷积和最大池层用于处理低分辨率的特征。在每个最大池化步骤中,网络分支并以原始预池化分辨率应用更多卷积。在达到最低分辨率后,网络开始自上而下的上采样序列和跨尺度的特征组合。为了汇集两个相邻分辨率的信息,我们遵循Tompson等人[15]描述的过程,对较低分辨率进行最近邻上采样,然后对两组特征进行元素式添加。沙漏的拓扑结构是对称的,所以在下降的过程中,每一层都有一个对应的上升层。

        在达到网络的输出分辨率后,应用两轮连续的1×1卷积来产生最终的网络预测。网络的输出是一组热图,其中对于给定的热图,网络预测每个像素处关节出现的概率。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值