DenseNet和FractalNet

最新推荐文章于 2025-01-12 09:13:00 发布

原创最新推荐文章于 2025-01-12 09:13:00 发布 · 1.5k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #人工智能 #机器学习

神经网络专栏收录该内容

12 篇文章

订阅专栏

DenseNet和FractalNet

文章目录

- - - DenseNet和FractalNet

参考资料：https://blog.youkuaiyun.com/qq_39297053/article/details/130675478?spm=1001.2014.3001.5502

前言

作为CVPR2017年的Best Paper， DenseNet脱离了通过加深网络层数(VGG，ResNet)和加宽网络结构(GoogLeNet)来提升网络性能的定式思维，从特征的角度考虑, 通过特征重用和旁路(Bypass)设置，既大幅度减少了网络的参数量，又在一定程度上缓解了梯度弥散问题的产生. 结合信息流和特征复用的假设， DenseNet当之无愧成为2017年计算机视觉顶会的年度最佳论文。另外，本文还对FractalNet进行了介绍，FractalNet与DenseNet的设计思想有异曲同工之妙。

先列下DenseNet的几个优点，感受下它的强大：

1、减轻了vanishing-gradient（梯度消失）
2、加强了feature的传递，更有效地利用了不同层的feature
3、网络更易于训练,并具有一定的正则效果.
4、因为整个网络并不深，所以一定程度上较少了参数数量

Model Architecture

resNet做的是相加，而DenseNet做的是通道维度上的拼接

DenseBlock

虽然这些残差模块中的连线很多，但是它们代表的操作只是一个空间上的拼接，并不是实际上的加减乘除运算，所以DenseNet相比传统的卷积神经网络可训练参数量更少。但是，为了在网络深层实现拼接操作，必须把之前的计算结果保存下来，这就比较占内存了。这是DenseNet的一大缺点。

Down-sampling Layer

由于在DenseNet中需要对不同层的feature map进行cat操作,所以需要不同层的feature map保持相同的feature size,这就限制了网络中Down sampling的实现.为了使用Down sampling,作者将DenseNet分为多个stage，每个stage包含多个Dense blocks, 如下图所示:

c5ada06bea0543b78ddc85ad71506d4f

在同一个Denseblock中要求特征图尺寸保持相同大小，在不同Denseblock之间设置Transition Layers实现下采样操作，具体来说，transition Layer由BN+Conv(kernel size 1×1)＋average-pooling(kernel size 2×2)组成。

注意这里1×1卷积是为了对特征通道数量进行降维；而池化才是为了降低特征图的尺寸。

在DenseNet模型中，Dense Block的每个子结构都将前面所有子结构的输出结果作为输入。例如，假设我们考虑Dense Block(3)，该Block包含32个3×3的卷积操作。如果每一层输出的特征通道数为32，那么第32层的3×3卷积操作的输入通道数将是前31层所有输出的累积，即31×32，加上上一个Dense Block的输出特征通道数。这可以使得特征通道数达到近1000。

为了降低特征通道数，DenseNet在每个Dense Block后引入了Transition Layer，其中使用了1×1的卷积核进行降维操作。Transition Layer有一个参数名为’reduction’，取值范围为0到1，用于控制输出通道数相对于输入通道数的比例。默认情况下，'reduction’设为0.5，这意味着Transition Layer将特征通道数减少到原来的一半，然后将结果传给下一个Dense Block。