2021-Lite-HRNet: A Lightweight High-Resolution Network

最新推荐文章于 2025-11-16 12:58:37 发布

原创

最新推荐文章于 2025-11-16 12:58:37 发布 · 5.5k 阅读

74 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #语义分割

本文探讨了如何构建一个轻量级的高分辨率网络 Lite-HRNet，该网络基于HRNet并引入ShuffleBlock以平衡性能和计算复杂度。作者分析了ShuffleBlock中1*1卷积的计算瓶颈，并提出了ConditionalChannelWeighting和Cross-ResolutionWeightComputation策略来替代1*1卷积，通过特征聚合和权重计算增强多尺度信息交互。实验表明，Lite-HRNet在人体姿态估计和语义分割任务中表现出色，同时降低了计算复杂度。

1. Title

Lite-HRNet: A Lightweight High-Resolution Network

2. Summary

本文是想制作一个高性能的轻量化HRNet网络，我个人实际使用中会发现，Small HRNet的性能一般会比同量级的UNet要差一些，个人理解是多尺度信息交互不够充分的原因，毕竟原来的交互方式很简单（带步长的卷积进行下采样，双线性插值进行上采样），因此简单对HRNet进行放缩是不能取得较好的trade-off的。
作者首先是在HRNet中引入Shuffle Block，得到了Naive Lite-HRNet，并且在性能和复杂度上取得了不错的tradeoff。通过进一步分析，作者认为Shuffle Block中的1*1 Conv成为了性能瓶颈，因此想解决这个问题。
在HRNet中多个branch独立使用1*1 Conv计算复杂度会比较高，因此，作者想到了首先把多个branch的特征聚合起来，增强后，然后再作为权重分发回原branch，聚合过程中通过Pooling的方法降低feature map的大小，以此来降低整体计算复杂度，分发过程中再重新上采样回原始分辨率。这样一来一方面可以降低计算复杂度，另一方面还能将独立的各个分支的信息聚合起来，引入多尺度交互，以弥补spatial信息的损失。
个人认为，采用类似的思路，在HRNet多尺度特征交互方面再做些文章是可以进一步提升精度。

3. Problem Statement

Human pose estimation一般比较依赖于高分辨率的特征表示以获得较好的性能，但是目前的网络计算量较大，不能称之为一个高效的网络结构，因此，本文想解决的问题就是如何在计算资源受到约束的情况下部署一个高效的高分辨率模型。
通过简单地将ShuffleNet中的Shuffle Block应用于HRNet，即可得到一个轻量级的HRNet，并且可以获得超越MobileNet、ShuffleNet以及Small HRNet的性能，但是Shuffle Blocks中大量使用的1*1 Conv成为了计算瓶颈，因此，如何能替换掉成本较高的1*1 Conv并且保持甚至取得超越其性能是本文要解决的核心问题。

4. Method(s)

4.1 Naive Lite-HRNet

（1）Shuffle Blocks

Shuffle Block会将通道首先分为两个部分，其中的一部分会送入一个1*1 Conv 3*3 DepthWise Conv和1*1 Conv中进行增强，处理完后会和另一部分拼接起来，最终会把通道重新shuffle。

（2）HRNet

Small HRNet Architecture
HRNet有两大优点：

通过全程保持高分辨率的特征，有利于位置信息的保留，对于位置敏感的任务例如语义分割、目标检测、人体姿态估计等都具有良好的作用。
另外通过充分地多尺度特征融合，HRNet有利于多尺度信息的挖掘，对于目标的尺度变化不敏感。

（3）Simple Combination

通过简单将Stem中的第2个3*3 Conv以及所有的Residual Block替换为Shuffle Block，并且将所有multi-resolution fusion中的Conv替换为Separable Conv，即可得到 Naive Lite-HRNet。
下面是官方代码中Stem的部分的实现，部分需要说明或者注意的地方，已经加上了中文注释：

class Stem(nn.Module):
    def __init__(self,
                 in_channels,
                 stem_channels,
                 out_channels,
                 expand_ratio,
                 conv_cfg=None,
                 norm_cfg=dict(type='BN'),
                 # 是否使用torch.utils.checkpoint用于降低显存使用，与模型实现没有关系，可以忽略
                 # 可参考博客：https://blog.youkuaiyun.com/ONE_SIX_MIX/article/details/93937091
                 with_cp=False):  
        super().__init__()
        self.in_channels = in_channels
        self.out_channels = out_channels
        self.conv_cfg = conv_cfg
        self.norm_cfg = norm_cfg
        self.with_cp = with_cp
		
		# Stem中的第一个卷积不使用shuffle block
		# ConvModule是MMCV中的一个基本卷积模块：conv/norm/activation
        self.conv1 = ConvModule(
            in_channels=in_channels,
            out_channels=stem_channels,
            kernel_size=3,
            stride=2,
            padding=1,
            conv_cfg=self.conv_cfg,
            norm_cfg=self.norm_cfg,
            act_cfg=dict(type='ReLU'))
		
        mid_channels = int(round(stem_channels * expand_ratio))
        branch_channels = stem_channels // 2
        if stem_channels == self.out_channels:
            inc_channels = self.out_channels - branch_channels
        else:
            inc_channels = self.out_channels - stem_channels
		
		# Shuffle Block中左侧不做增强的分支
        self.branch1 = nn.Sequential(
            ConvModule(
                branch_channels,
                branch_channels,
                kernel_size=3,
                stride=2,
                padding=1,
                groups=branch_channels,
                conv_cfg=conv_cfg,
                norm_cfg=norm_cfg,
                act_cfg=None),
            ConvModule(
                branch_channels,
                inc_channels,
                kernel_size=1,
                stride=1,
                padding=0,
                conv_cfg=conv_cfg,
                norm_cfg=norm_cfg,
                act_cfg=dict(type='ReLU')),
        )
		
		# Shuffle Block中右侧增强分支
        self.expand_conv = ConvModule(
            branch_channels,
            mid_channels,
            kernel_size=1,
            stride=1,
            padding=0,
            conv_cfg=conv_cfg,
            norm_cfg=norm_cfg,
            act_cfg=dict(type='ReLU'))
        self.depthwise_conv = ConvModule(
            mid_channels,
            mid_channels,
            kernel_size=3,
            stride=2,
            padding=1,
            groups=mid_channels,  # groups=in_channels 深度可分离卷积
            conv_cfg=conv_cfg,
            norm_cfg=norm_cfg,
            act_cfg=None)
        self.linear_conv = ConvModule(
            mid_channels,
            branch_channels
            if stem_channels == self.out_channels else stem_channels,
            kernel_size=1,
            stride=1,
            padding=0,
            conv_cfg=conv_cfg,
            norm_cfg=norm_cfg,
            act_cfg=dict(type='ReLU'))

    def forward(self, x):

        def _inner_forward(x):
            x = self.conv1(x)
            x1, x2 = x.chunk(2, dim=1)

            x2 = self.expand_conv(x2)
            x2 = self.depthwise_conv(x2)
            x2 = self.linear_conv(x2)

            out = torch.cat((self.branch1(x1), x2), dim=1)

            out = channel_shuffle(out, 2)  # shuffle channel

            return out

        if self.with_cp and x.

最低0.47元/天解锁文章

15 条评论

lonelygoose256 2024.12.25
大佬，代码可以在windows系统跑吗

weixin_42256648 2023.05.26
lite hrnet的精度下降会很大么？

weixin_42256648 2023.05.26
博主你好，我看了一篇文章用的hrnet seg w48作为backbone做的密集人群计数任务，但是实时性很差，看了lite hrnet我想知道能不能替换原来的hrnet，想了解一下代码方面应该怎么替换呢?(纯小白刚接触cv)

dfdffddhb 2021.06.16
博主你好，请问litehrnet是否只是一个特征提取网络，作为backbone，是否需要添加其他的网络（才能进行关键点检测？
- 小毛激励我好好学习回复dfdffddhb 2021.06.18
  是的，LiteHRNet和HRNet一样，是个backbone，它会得到一个四种尺度的特征，后面还需在接其他任务的head才行。

小毛激励我好好学习 2021.05.19
1. 全连接等价于1*1卷积，这个可以参考Network in Network这篇论文。 2. Spatial Weighting操作的意义我理解的是在各个分辨率内部聚合不同通道的信息，使得每个通道对应的每个位置的信息与该分辨率下所有像素都相关，增强特征表征能力吧。也比较玄学[face]emoji:010.png[/face][face]emoji:010.png[/face]
- weixin_49363489回复小毛激励我好好学习 2021.05.21
  同感，我也觉得这篇论文在创新点方面不足。
- 小毛激励我好好学习回复weixin_49363489 2021.05.21
  我看感觉也是SE模块，不过作者似乎是从另一个角度解释的其作用，作者更强调的是在各个分辨率内部使得每个像素之间都能互相影响。其实整体感觉这篇文章创新不是很足，但是性能确实很好。
- weixin_49363489回复小毛激励我好好学习 2021.05.20
  spatial weighting不就是SE注意力模块嘛？

Begin,again 2021.05.19
还有，这个spatiweighting操作的具体意义是什么呢
- zouxiaolv回复Begin,again 2022.06.13
  那就是一个单分支内的，通道注意力机制

Begin,again 2021.05.19
大佬，感谢你的讲解，豁然开朗，不过F s ( ⋅ )这个操作的中间应该是1*1卷积，不是全连接吧[face]emoji:015.png[/face]

zouxiaolv 2021.05.10
博主推到公式的软件是什么？[face]emoji:012.png[/face]
- zouxiaolv回复小毛激励我好好学习 2021.05.10
  好滴，感谢
- 小毛激励我好好学习回复zouxiaolv 2021.05.10
  goodnotes，iPad上的一个软件，配合apple pencil写的