论文标题:Rethinking the Inception Architecture for Computer Vision
作者: Christian Szegedy etc.
单位: Google Inc.
时间: 2015
学习目标
- 模型设计准则
- 模型设计技巧
- 卷积分解
- 辅助分类层探讨
- 特征图下降策略
- 标签平滑
- 低分辨率图像分类
- 测试技巧
- Multi-crop测试
- 多模型融合
论文导读
研究背景
GoogLeNet–V1 采用多尺度卷积核, 1 × 1 1\times 1 1×1卷积操作, 辅助损失函数,实现更深的22层卷积神经网络,夺得 ILSVRC-2014 分类和检测冠军,定位亚军GoogLeNet-V2 基础上加入BN层,并将 5 × 5 5\times5 5×5卷积全面替 换为2个3*3卷积堆叠的形式,进一步提高模型性能。
但是VGG网络模型大,参数多,计算量大,不适用于真实场景
研究成果
- 提出inception-v2和inception-v3,inception-v3模型获得了ILSVRC分类任务SOTA
- 提出4个网络模型设计准则,为模型设计提供参考
- 提出卷积分解、高效率降低特征图分辨率方法和标签平滑技巧。提升了网络速度和精度
研究意义
- 总结模型设计准则,为卷积神经网络模型设计提供参考
- 提出3个技巧,结合Inception,奠定Inception系列最常用模型——Inception-V3
注意:GoogLeNet-V2(论文) 不是 Inception-V2, Inception-V2是GoogLeNet-V3(论文) 中提出的
论文泛读
摘要
- 介绍背景:自2014年以来,深度卷积神经网络成为主流,在多个任务中获得优异成绩
- 提出问题:目前精度高的卷积神经网络,参数多,计算量大,存在落地困难问题
- 解决问题:本文提出分解卷积及正则化策略,提升深度卷积神经网络速度和精度
- 本文成果:单模型+single crop,top-5, 5.6%; 模型融合+multi-crop,top-5,3.5%
论文精读
网络设计准则
通过大量实验得出的结论,并无理论证明
- 尽量避免信息瓶颈,通常发生在池化层,即特征图变小,信息量减少,类似一个瓶颈
- 采用更高维的表示方法能够更容易的处理网络的局部信息
- 大的卷积核可以分解为数个小卷积核,且不会降低网络能力
- 把握好深度和宽度的平衡
【第2、4点根本就是废话】
卷积分解(factorizing convolutions)
卷积分解1
大卷积核分解为小卷积核堆叠。 1个 5 × 5 5\times 5 5×5卷积分解为2个 3 × 3 3\times 3 3×3卷积。参数减少了1-(9+9)/25 = 28%
卷积分解2
1个 n × n n\times n n×n卷积分解为 1 × n 1\times n 1×n卷积和 n × 1 n\times 1 n×1卷积堆叠。对于 3 × 3 3\times 3 3×3而言,参数减少了1-(3+3)/9=33%
注意:非对称卷积在后半段网络使用效果才好,特别是特征图分辨率在12-20之间,本文在分辨率为 17 × 17 17\times 17 17×17的时候使用非对称卷积分解
辅助分类层
GoogLeNet-V1中提出辅助分类层,用于缓解梯度消失, 提升低层的特征提取能力 本文对辅助分类层进行分析,得出结论:
- 辅助分类层在初期起不到作用,在后期才能提升网
络性能 - 移除第一个辅助分类层不影响精度
- 辅助分类层可辅助低层提取特征是不正确的
- 辅助分类层对模型起到正则的作用
- googlenet-v3在 17 × 17 17\times 17 17×17特征图结束接入辅助分类层
高效特征图下降策略
传统池化方法存在信息表征瓶颈问题,违反了设计准则1,也就是特征图信息变少了(如图9左所示)
简单解决方法:先用卷积将特征图通道数翻倍,再用池化。存在问题:计算量过大
进一步策略:用卷积得到一半特征图,用池化的到一半特征图。用较少的计算量获得较多的信息,避免信息表征瓶颈。
base是 35 × 35 × 320 35\times 35\times 320 35×35×320, concat之后就变成了 17 × 17 × 640 17\times 17\times 640 17×17×640.
该inception-module用于 35 × 35 35\times 35 35×35下降至 17 × 17 17\times 17 17×17以及 17 × 17 17\times 17 17×17下降至 8 × 8 8\times 8 8×8
标签平滑
传统的one-hot编码存在问题:过度自信,导致过拟合
文中提出标签平滑:把one-hot中概率为1的那一项进行衰减,避免过度自信,衰减的那部分confidence平均分到每一个类别中。
举例:4分类任务,label=(0, 1, 0, 0)
label smoothing: ( 0.001 4 , 1 − 0.001 + 0.001 4 , 0.001 4 , 0.001 4 ) = ( 0.00025 , 0.99925 , 0.00025 , 0.00025 ) (\dfrac{0.001}{4}, 1-0.001+\dfrac{0.001}{4}, \dfrac{0.001}{4}, \dfrac{0.001}{4})=(0.00025, 0.99925, 0.00025, 0.00025) (40.001,1−0.001+40.001,40.001,40.001)=(0.00025,0.99925,0.00025,0.00025)
标签平滑公式
回顾交叉熵定义: H ( q , p ) = − ∑ k = 1 K log ( p k ) q k \mathrm{H}(q, p)=-\sum_{k=1}^{K} \log \left(p_{k}\right) q_{k} H(