论文笔记：主干网络——GoogLeNet-V3

本文链接：https://blog.youkuaiyun.com/liuzeyao_Newton/article/details/124465414

Rethinking the Inception Architecture for Computer Vision

重新思考计算机视觉中的Inception结构

文章目录

Rethinking the Inception Architecture for Computer Vision
重新思考计算机视觉中的Inception结构

论文结构

摘要： 介绍CNN在CV的成功，存在计算量问题，本文提出提升计算效率的方法
1. Introduction： CNN广泛应用，变得越来越大，VGG和GoogLeNet-V1均不适用于真实场景，本文提出新技术解决上述问题。
2. General Design Principles： 通过总结大量实验，提出4个模型设计准则，为模型设计提供参考。
3. Factorizing Convolutions with Large Filter Size: 针对运算效率，提出分解卷积，在部分inception-module中使用分解的卷积，减少模型参数。
**4. Utility of Auxiliary Classifiers: ** 重新思考辅助分类层的作用，推翻V1论文中的部分结论，认为只存在正则的作用，不存在帮助低层特征提取的作用。
5. Efficient Grid Size Reduction: 针对直接池化产生信息瓶颈问题，提出新的特征图分辨率下降的操作，有效符合了设计准则1.
6. Inception - v2: 经过大量实验，改进Inception-v1，得到新的模型结构inception-v2。
7. Model Regularization via Label Smoothing: 提出基于标签平滑的正则化技术，提高模型的泛化能力，减轻过拟合。
8. Training Methodology: 介绍训练模型的设置。
9. Performance on Lower Resolution Input: 探讨如何有效对低分辨率图像进行分类，为目标检测等任务提供思路。
10. Experimental Results and Comparisons: 实验结果及对比分析。
11. Conclusions： 总结本文工作