VoVNet：一种实时高效的目标检测Backbone网络【pytorch代码详解】

最新推荐文章于 2024-07-23 21:15:04 发布

原创

最新推荐文章于 2024-07-23 21:15:04 发布 · 2.4k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#VoVNet #目标检测 #Pytorch #DenseNet #深度学习

本文探讨了在设计轻量级神经网络时，除FLOPs和模型参数外，还需考虑内存访问成本和GPU计算效率。介绍了一种名为VoVNet的新型网络结构，该结构通过重新思考密集连接和提出一次性聚合模块，有效降低了推理时间和能耗，提高了GPU计算效率。实验表明，VoVNet在保持较高精度的同时，显著提升了目标检测的效率。

Pytorch实现代码

2.Factors of Efficient Network Design

在设计轻量级网络时，FLOPs和模型参数是主要考虑因素，但是减少模型大小和FLOPs不等同于减少推理时间和降低能耗。比如ShuffleNetv2与MobileNetv2在相同的FLOPs下，前者在GPU上速度更快。所以除了FLOPs和模型大小外，还需要考虑其他因素对能耗和模型推理速度的影响。这里考虑两个重要的因素：内存访问成本（Memory Access Cost，MAC）和GPU计算效率。

2.1. Memory Access Cost

对于CNN，能耗在内存访问而不是计算上。影响MAC的主要是是内存占用（intermediate activation memory footprint），它主要受卷积核和feature map大小的影响。c为输入输出通道。
在这里插入图片描述

2.2. GPUComputation

通过减少FLOP是来加速的前提是，每个flop point的计算效率是一致的。
GPU特性：
（1）擅长parallel computation，tensor越大，GPU使用效率越高。
（2）把大的卷积操作拆分成碎片的小操作将不利于GPU计算。
因此，设计layer数量少的网络是更好的选择。mobileNet使用1x1卷积来减少计算量，不过这不利于GPU计算。为了衡量GPU使用效率，我们使用Flops/s指标。

3. Proposed Method

3.1. Rethinking Dense Connection

当固定卷积层参数量B=k^2hwcico的时候，MAC可以表示如下，根据均值不等式，可以知道当输入和输出的channel数相同时MAC才取下界，此时的设计是最高效的。
在这里插入图片描述
使用Dense connect模块，输出的channel size不变，但是输入的channel size一直在线性增加，因此DenseNet有很高的MAC。bottleneck connection同样不利于GPU计算。在模型很大的时候，计算量随着深度指数二阶增长。bottleneck 把一个3x3的卷积分成了两个计算，相当于增加了一次序列运算。

3.2. One Shot Aggregation

对于DenseNet来说，其核心模块就是Dense
Block，如下图1a所示，这种密集连接会聚合前面所有的layer，这导致每个layer的输入channel数线性增长。受限于FLOPs和模型参数，每层layer的输出channel数是固定大小，这带来的问题就是输入和输出channel数不一致，如前面所述，此时的MAC不是最优的。另外，由于输入channel数较大，DenseNet采用了1x1卷积层先压缩特征，这个额外层的引入对GPU高效计算不利。所以，虽然DenseNet的FLOPs和模型参数都不大，但是推理却并不高效，当输入较大时往往需要更多的显存和推理时间。

在这里插入图片描述

DenseNet的一大问题就是密集连接太重了，而且每个layer都会聚合前面层的特征，其实造成的是特征冗余，而且从模型weights的L1范数会发现中间层对最后的分类层贡献较少，这不难理解，因为后面的特征其实已经学习到了这些中间层的核心信息。这种信息冗余反而是可以优化的方向，据此这里提出了OSA（One-Shot Aggregation）模块，如图1b所示，简单来说，就是只在最后一次性聚合前面所有的layer。这一改动将会解决DenseNet前面所述的问题，因为每个layer的输入channel数是固定的，这里可以让输出channel数和输入一致而取得最小的MAC，而且也不再需要1x1卷积层来压缩特征，所以OSA模块是GPU计算高效的。

那么OSA模块效果如何，论文中拿DenseNet-40来做对比，DenseBlock层数是12，OSA模块也设计为12层，但是保持和Dense
Block类似的参数大小和计算量，此时OSA模块的输出将更大。最终发现在CIFAR-10数据集上acc仅比DenseNet下降了1.2%。但是如果将OSA模块的层数降至5，而提升layer的通道数为43，会发现与DenseNet-40模型效果相当。这说明DenseNet中很多中间特征可能是冗余的。尽管OSA模块性能没有提升，但是MAC低且计算更高效，这对于目标检测非常重要，因为检测模型一般的输入都是较大的。

3.3. Configuration of VoVNet

VoVNet由OSA模块构成，主要有三种不同的配置，如下表所示。VoVNet首先是一个由3个3x3卷积层构成的stem block，然后4个阶段的OSA模块，每个stage的最后会采用一个stride为2的3x3 max pooling层进行降采样，模型最终的output stride是32。与其他网络类似，每次降采样后都会提升特征的channel数。VoVNet-27-slim是一个轻量级模型，而VoVNet-39/57在stage4和stage5包含更多的OSA模块，所以模型更大。
在这里插入图片描述

4. Experiments

相比于DenseNet-67，PeleeNet减少了Flops，但是推断速度没有提升，与之相反，VoVNet-27-slim稍微增加了Flops，而推断速度提升了一倍。同时，VoVNet-27-slim的精度比其他模型都高。VoVNet-27-slim的内存占用、能耗、GPU使用效率都是最好的。相比其他模型，VoVNet做到了准确率和效率的均衡，提升了目标检测的整体性能。
在这里插入图片描述

import torch
import torch.nn as nn
import torch.nn.functional as F
from collections import OrderedDict


__all__ = ['VoVNet', 'vovnet27_slim', 'vovnet39', 'vovnet57']


model_urls = {
   
   
    'vovnet39': 'https://dl.dropbox.com/s/1lnzsgnixd8gjra/vovnet39_torchvision.pth?dl=1',
    'vovnet57': 'https://dl.dropbox.com/s/6bfu9gstbwfw31m/vovnet57_torchvision.pth?dl=1'
}


def conv3x3(in_channels, out_channels, module_name, postfix,
            stride=1, groups=1, kernel_size=3, padding=1):
    """3x3 convolution with padding"""
    return [
        ('{}_{}/conv'.format(module_name, postfix),
            nn.Conv2d(in_channels, out_channels,
                      kernel_size=kernel_size,
                      stride=stride,
                      padding=padding,
                      groups=groups,
                      bias=False)),
        ('{}_{}/norm'.format(module_name, postfix),
            nn.BatchNorm2d(out_channels)),
        ('{}_{}/relu'.format(module_name, postfix),
            nn.ReLU(inplace=True)),
    ]