Paperreading之五 Stacked Hourglass Networks(SHN)和源码阅读（PyTorch版本）_stacked hourglass network for human pose estimatio-优快云博客

本文链接：https://blog.youkuaiyun.com/baolinq/article/details/84575381

本文详细介绍了ECCV2016论文中提出的Stacked Hourglass Networks（SHN），这是一种用于人体关键点检测的深度学习模型。SHN采用级联的沙漏网络结构，利用中继监督和多级反馈来提高预测准确性。文章还探讨了PyTorch版本的实现，并分析了不同级联数量对性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.前言

这篇文章是ECCV2016的论文，Jia Deng组的工作，是top-down算法，非常经典，当时也是在各种公开数据集上霸榜。在FLIC和MPII上都是第一名（在当时），是sota算法。现在很多关于姿态估计的论文都有参考SHN或者会拿他作对比，可以说是比较典型的姿态估计算法。

2. 网络结构

SHN网络名字起的很不错，级联的沙漏网络，顾名思义，沙漏网络就表示该网络具有高度对称性，多个沙漏网络进行级联，其实不级联也是可以检测的，只是检测效果会差一些，作者认为人体关节点之间有较强的相关性，前面沙漏检测出的关键点对后面的检测有帮助，所以前面的输出可以作为后面的输入的一部分，见下图的虚线部分，这个后面再讨论。

级联的沙漏网络

2.1单个沙漏网络

单个沙漏网络如上图所示，这是一个4阶版本的沙漏网络，表示有四次下采样和四次下采样。方块大小表示feature maps大小，方块变小方式下采样，方块变大是上采样，加号表示按元素相加。其他全部都是残差模块，上方的连线方式也是一些残差模块，但是没有改变feature maps的大小，只是改变通道数，变成与下面相同，然后才可以按元素相加。

看一下更加具体的版本

该图来自https://blog.youkuaiyun.com/shenxiaolu1984/article/details/51428392。浅绿色部分是一些残差模块。看上去很明朗，就是一些残差模块，先下采样然后上采样，这样的网络结构提取特征很充分，在不同的分辨率有进行卷积，然后还有特征融合。但是也有一些弊端，不能使用pretrained model，因为它不像cpn那样，GlobalNet是resnet50或者resnet101，可以直接使用在ImageNet上预训练的模型进行初始化。没有预训练模型用来初始化，一般需要训练更久然后效果会更差一些，但是没有预训练的情况下，当数据很充分，训练也很充分，合理使用BN或者GN，炼丹能力较好的情况下，是可以达到预训练的效果（Kaiming He的最新论文的结论，Rethinking）。

2.2看一下Pytorch版本实现

class HourglassNet(nn.Module):
    '''Hourglass model from Newell et al ECCV 2016'''
    def __init__(self, block, num_stacks=2, num_blocks=4, num_classes=16):
        """
        参数解释
        :param block: hg块元素
        :param num_stacks: 有几个hg
        :param num_blocks: 在两个hg之间有几个block块
        :param num_classes: keypoint个数,也就是最后的heatmap个数
        """
        super(HourglassNet, self).__init__()

        self.inplanes = 64
        self.num_feats = 128
        self.num_stacks = num_stacks
        self.conv1 = nn.Conv2d(3, self.inplanes, kernel_size=7, stride=2, padding=3,
                               bias=True)   # 第一次下采样
        self.bn1 = nn.BatchNorm2d(self.inplanes) 
        self.relu =