[深度学习论文笔记][Image Classification] Going Deeper with Convolutions

本文是关于深度学习论文的研究笔记,主要探讨了如何通过使用GoogLeNet(Inception网络)在保持计算预算不变的情况下,增加网络的深度和宽度以提高图像分类性能。通过1x1卷积层实现维度调整和增强网络表示能力,减少计算瓶颈。文中详细介绍了网络架构,包括多个Inception模块和辅助分类器的设计,以及训练和数据准备的策略。在ILSVRC-2014比赛中,该模型在top-5错误率上取得了显著成果。
Szegedy, Christian, et al. “Going deeper with convolutions.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015. [Citations: 1576].


1 Motivations

[Increasing Both the Depth and Width of the Network]

• Large number of parameters, more prone to overfitting.

• Increased use of computational resources.


[Motivation] Improve the utility of the computation resources inside the network, then we can increase the depth and width of the network while keeping the computational budget constant.


[Idea] Use 1 × 1 conv layer to 

• Increase the representational power of neural networks.
• Dimension reduction to remove computational bottlenecks.

2 Architecture
In a Nutshell (5M Parameters)
• Input (3 × 224 × 224).
• conv1 (64@7 × 7, s2, p3), relu1, pool1 (3 × 3, s2), lrn1, output (64 × 56 × 56).
• conv2-1 (64@1 × 1, s1), rel

深度学习与图像识别领域,有一些经典论文对后续研究和应用产生了深远影响。以下是几个关键方向的重要论文推荐,涵盖卷积神经网络(CNN)、代表性模型架构以及特定任务的突破性研究。 ### 1. 卷积神经网络(CNN)的基础性论文 卷积神经网络是图像识别领域的核心模型结构,以下论文奠定了CNN的基础: - **"Gradient-Based Learning Applied to Document Recognition"**(Yann LeCun et al., 1998):这篇论文系统性地介绍了LeNet-5架构,是最早的CNN模型之一,用于手写数字识别,奠定了深度学习在图像任务中的基础[^1]。 - **"ImageNet Classification with Deep Convolutional Neural Networks"**(Alex Krizhevsky et al., 2012):该论文提出了AlexNet,在ImageNet竞赛中取得突破性成绩,标志着深度学习在图像识别领域进入主流[^1]。 ### 2. GoogleNet系列(Inception系列) GoogleNet通过引入Inception模块,提高了模型的效率和性能,以下是该系列的重要论文: - **"Going Deeper with Convolutions"**(Christian Szegedy et al., 2014):提出Inception V1架构,首次将网络深度显著提升,同时控制了计算成本[^2]。 - **"Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift"**(Sergey Ioffe et al., 2015):Inception V2中引入了Batch Normalization技术,极大提升了训练效率和模型泛化能力[^2]。 - **"Rethinking the Inception Architecture for Computer Vision"**(Christian Szegedy et al., 2016):提出Inception V3和V4,优化了网络结构,进一步提升了性能[^2]。 ### 3. ResNet系列 ResNet通过引入残差连接解决了深度网络中的梯度消失问题,以下是该系列的关键论文: - **"Deep Residual Learning for Image Recognition"**(Kaiming He et al., 2016):首次提出ResNet架构,通过残差连接显著提升了网络深度和性能,成为图像识别领域的标杆模型。 - **"Aggregated Residual Transformations for Deep Neural Networks"**(Saining Xie et al., 2017):提出ResNeXt架构,通过增加网络的宽度和分组卷积提升了模型的表达能力。 - **"Densely Connected Convolutional Networks"**(Gao Huang et al., 2017):提出DenseNet,每一层与后续所有层直接相连,增强了信息流动和梯度传播。 ### 4. MobileNet系列 MobileNet系列专注于轻量化模型设计,适用于移动端和嵌入式设备: - **"MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications"**(Andrew G. Howard et al., 2017):提出MobileNet V1,采用深度可分离卷积(Depthwise Separable Convolution)大幅减少了计算量。 - **"MobileNetV2: Inverted Residuals and Linear Bottlenecks"**(Mark Sandler et al., 2018):引入线性瓶颈层和倒置残差结构,进一步提升了模型效率[^2]。 - **"Searching for MobileNetV3"**(Andrew Howard et al., 2019):结合神经网络架构搜索(NAS)技术,优化了MobileNet V3的结构,提升了性能[^2]。 ### 5. SqueezeNet、ShuffleNet和SeNet 这些模型在轻量化和注意力机制方面做出了重要贡献: - **"SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size"**(Forrest N. Iandola et al., 2016):提出SqueezeNet,以极小的参数量实现与AlexNet相当的性能。 - **"ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices"**(Xiangyu Zhang et al., 2018):提出ShuffleNet V1,通过通道混洗(Channel Shuffle)提升轻量级模型的性能[^2]。 - **"ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design"**(Ningning Ma et al., 2018):基于实际性能指标优化模型设计,提出了更高效的ShuffleNet V2。 - **"Squeeze-and-Excitation Networks"**(Jie Hu et al., 2018):提出SeNet,通过通道注意力机制增强模型的表达能力,获得了2017年ImageNet冠军。 ### 6. VGG网络 VGG网络以其简洁的结构和良好的泛化能力著称: - **"Very Deep Convolutional Networks for Large-Scale Image Recognition"**(Karen Simonyan et al., 2015):提出VGG16和VGG19等深度模型,验证了网络深度对性能的提升作用[^2]。 ### 7. 其他重要论文 - **"You Only Look Once: Unified, Real-Time Object Detection"**(Joseph Redmon et al., 2016):提出YOLO算法,首次实现了实时目标检测,对后续检测模型的发展具有重要影响。 - **"Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks"**(Shaoqing Ren et al., 2015):提出区域建议网络(RPN),显著提升了目标检测的效率和精度。 - **"Mask R-CNN"**(Kaiming He et al., 2017):在Faster R-CNN基础上引入掩码分支,实现了实例分割任务的突破。 ```python # 示例代码:使用PyTorch加载预训练的ResNet模型 import torchvision.models as models # 加载预训练的ResNet18模型 model = models.resnet18(pretrained=True) print(model) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值