现代卷积神经网络架构模式与模型解读
1. 批归一化与激活函数顺序
在构建卷积神经网络(ConvNet)时,批归一化(Batch Normalization)和激活函数的顺序是一个值得关注的问题。直观来看,批归一化会将输入数据的均值调整为零,而ReLU激活函数以零为基准来决定是否保留激活通道。因此,在激活函数之前进行归一化操作可以最大程度地利用ReLU函数。不过,这种顺序并非绝对关键。即使先进行卷积,再进行激活,最后进行批归一化,模型依然能够正常训练,并且不一定会导致性能下降。
2. 深度可分离卷积
2.1 原理与优势
深度可分离卷积(Depthwise Separable Convolution)是一种非常实用的卷积层,在Keras中对应的是 SeparableConv2D 。它可以作为 Conv2D 的直接替代品,能够使模型更小(可训练的权重参数更少)、更精简(浮点运算更少),并且在任务中表现更出色。
深度可分离卷积的工作原理是先对输入的每个通道独立进行空间卷积,然后通过逐点卷积(1×1卷积)混合输出通道。这相当于将空间特征的学习和通道特征的学习分离开来。与普通卷积依赖于图像模式不依赖特定位置的假设类似,深度可分离卷积依赖于中间激活的空间位置高度相关,但不同通道高度独立的假设。由于这个假设对于深度神经网络学习的图像表示通常是成立的,因此它可以作为一个有用的先验知识,帮助模型更有效地利用训练数据。
与普通卷积相比,深度可分离卷积所需的参数显著减少,计算量也更少,同时具有相当的表示能力。它可以得到更小的模型,收敛速度更快,并且更不容易过拟合。这些优势在使用
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



