Rethinking the Inception Architecture for Computer Vision
重新思考计算机视觉中的Inception结构
论文结构
摘要: 介绍CNN在CV的成功,存在计算量问题,本文提出提升计算效率的方法
1. Introduction: CNN广泛应用,变得越来越大,VGG和GoogLeNet-V1均不适用于真实场景,本文提出新技术解决上述问题。
2. General Design Principles: 通过总结大量实验,提出4个模型设计准则,为模型设计提供参考。
3. Factorizing Convolutions with Large Filter Size: 针对运算效率,提出分解卷积,在部分inception-module中使用分解的卷积,减少模型参数。
**4. Utility of Auxiliary Classifiers: ** 重新思考辅助分类层的作用,推翻V1论文中的部分结论,认为只存在正则的作用,不存在帮助低层特征提取的作用。
5. Efficient Grid Size Reduction: 针对直接池化产生信息瓶颈问题,提出新的特征图分辨率下降的操作,有效符合了设计准则1.
6. Inception - v2: 经过大量实验,改进Inception-v1,得到新的模型结构inception-v2。
7. Model Regularization via Label Smoothing: 提出基于标签平滑的正则化技术,提高模型的泛化能力,减轻过拟合。
8. Training Methodology: 介绍训练模型的设置。
9. Performance on Lower Resolution Input: 探讨如何有效对低分辨率图像进行分类,为目标检测等任务提供思路。
10. Experimental Results and Comparisons: 实验结果及对比分析。
11. Conclusions: 总结本文工作
一、摘要核心
① 介绍背景:2014年以来,CNN成为主流,在多个任务中获得优异成绩。
② 提出问题: 目前精度高的CNN,参数多,计算量大,存在落地困难的问题。
③ 解决问题:本文提出分解卷积及正则化策略,提升CNN速度和精度。
④ 本文成果
二、4个网络结构设计准则(论文中的2)
① 避免特征表示瓶颈如pool,将特征图减半,信息量变少。
要避免过度压缩;通常分辨率是缓慢下降的
② 采用更高维的表示方法,更容易处理网络局部信息
③ 大的卷积核可以分解为数个小卷积核,且不会降低网络能力。(论