主流CNN架构解析与实践
1. GoogLeNet架构
GoogLeNet在大规模图像识别任务中表现出色,其架构设计有诸多独特之处:
- 池化层加速计算 :使用最大池化层将图像的高度和宽度缩小为原来的一半,以此加快计算速度。
- Inception模块堆叠 :包含九个Inception模块的堆叠,并穿插几个最大池化层,用于降低维度和加速网络。
- 全局平均池化层 :输出每个特征图的均值,去除剩余的空间信息。由于输入图像通常为224×224像素,经过5次最大池化层处理后,特征图尺寸变为7×7。该层的降维作用使得无需在CNN顶部设置多个全连接层,从而显著减少了网络参数数量,降低过拟合风险。
- 后续层 :包括用于正则化的Dropout层、具有1000个单元的全连接层(因为有1000个类别)以及Softmax激活函数,用于输出估计的类别概率。
原始的GoogLeNet架构还在第三和第六个Inception模块顶部添加了两个辅助分类器,由一个平均池化层、一个卷积层、两个全连接层和一个Softmax激活层组成。训练时,它们的损失(缩小70%)会添加到总损失中,目的是解决梯度消失问题和正则化网络,但后来发现其效果相对较小。
Google研究人员后来提出了GoogLeNet的多个变体,如Inception - v3和Inception - v4,使用了略有不同的Inception模块,性能更优。
2. VGGNet架构
VGGNet在2014年的ILSVRC挑战
超级会员免费看
订阅专栏 解锁全文
1034

被折叠的 条评论
为什么被折叠?



