CNN的发展历史-LeNet,Alexnet,VGGNet,GoogleNet,ReSNet

欢迎转载,转载请注明:本文出自Bin的专栏blog.youkuaiyun.com/xbinworld

关于卷积神经网络CNN,网络和文献中有非常多的资料,我在工作/研究中也用了好一段时间各种常见的model了,就想着简单整理一下,以备查阅之需。如果读者是初接触CNN,建议可以先看一看“Deep Learning(深度学习)学习笔记整理系列”中关于CNN的介绍[1],是介绍我们常说的Lenet为例,相信会对初学者有帮助。

  1. Lenet,1986年
  2. Alexnet,2012年
  3. GoogleNet,2014年
  4. VGG,2014年
  5. Deep Residual Learning,2015年

Lenet

就从Lenet说起,可以看下caffe中lenet的配置文件(点我),可以试着理解每一层的大小,和各种参数。由两个卷积层,两个池化层,以及两个全连接层组成。 卷积都是5*5的模板,stride=1,池化都是MAX。下图是一个类似的结构,可以帮助理解层次结构(和caffe不完全一致,不过基本上差不多)

这里写图片描述

Alexnet

2012年,Imagenet比赛冠军的model——Alexnet [2](以第一作者alex命名)。caffe的model文件在这里。说实话,这个model的意义比后面那些model都大很多,首先它证明了CNN在复杂模型下的有效性,然后GPU实现使得训练在可接受的时间范围内得到结果,确实让CNN和GPU都大火了一把,顺便推动了有监督DL的发展。

模型结构见下图,别看只有寥寥八层(不算input层),但是它有60M以上的参数总量,事实上在参数量上比后面的网络都大。

这里写图片描述

这个图有点点特殊的地方是卷积部分都是画成上下两块,意思是说吧这一层计算出来的feature map分开,但是前一层用到的数据要看连接的虚线,如图中input层之后的第一层第二层之间的虚线是分开的,是说二层上面的128map是由一层上面的48map计算的,下面同理;而第三层前面的虚线是完全交叉的,就是说每一个192map都是由前面的128+128=256map同时计算得到的。

Alexnet有一个特殊的计算层,LRN层,做的事是对当前层的输出结果做平滑处理。下面是我画的示意图:

这里写图片描述

前后几层(对应位置的点)对中间这一层做一下平滑约束,计算方法是:

这里写图片描述

具体打开Alexnet的每一阶段(含一次卷积主要计算)来看[2][3]:

(1)con - relu - pooling - LRN

这里写图片描述

具体计算都在图里面写了,要注意的是input层是227*227,而不是paper里面的224*224,这里可以算一下,主要是227可以整除后面的conv1计算,224不整除。如果一定要用224可以通过自动补边实现,不过在input就补边感觉没有意义,补得也是0。

(2)conv - relu - pool - LRN

这里写图片描述

和上面基本一样,唯独需要注意的是group=2,这个属性强行把前面结果的feature map分开,卷积部分分成两部分做。

(3)conv - relu

这里写图片描述

(4)conv-relu

这里写图片描述

(5)conv - relu - pool

这里写图片描述

(6)fc - relu - dropout

这里写图片描述

这里有一层特殊的dropout层,在alexnet中是说在训练的以1/2概率使得隐藏层的某些neuron的输出为0,这样就丢到了一半节点的输出,BP的时候也不更新这些节点。 
(7) 
fc - relu - dropout 
这里写图片描述
(8)fc - softmax 
这里写图片描述

以上图借用[3],感谢。

GoogleNet

googlenet[4][5],14年比赛冠军的model,这个model证明了一件事:用更多的卷积,更深的层次可以得到更好的结构。(当然,它并没有证明浅的层次不能达到这样的效果)

这里写图片描述

这个model基本上构成部件和alexnet差不多,不过中间有好几个inception的结构:

这里写图片描述

是说一分四,然后做一些不同大小的卷积,之后再堆叠feature map。

计算量如下图,可以看到参数总量并不大,但是计算次数是非常大的。 
这里写图片描述

VGG

VGG有很多个版本,也算是比较稳定和经典的model。它的特点也是连续conv多,计算量巨大(比前面几个都大很多)。具体的model结构可以参考[6],这里给一个简图。基本上组成构建就是前面alexnet用到的。 
这里写图片描述

下面是几个model的具体结构,可以查阅,很容易看懂。

这里写图片描述

Deep Residual Learning

这个model是2015年底最新给出的,也是15年的imagenet比赛冠军。可以说是进一步将conv进行到底,其特殊之处在于设计了“bottleneck”形式的block(有跨越几层的直连)。最深的model采用的152层!!下面是一个34层的例子,更深的model见表格。 
这里写图片描述 
其实这个model构成上更加简单,连LRN这样的layer都没有了。

这里写图片描述

block的构成见下图:

这里写图片描述

总结

OK,到这里把常见的最新的几个model都介绍完了,可以看到,目前cnn model的设计思路基本上朝着深度的网络以及更多的卷积计算方向发展。虽然有点暴力,但是效果上确实是提升了。当然,我认为以后会出现更优秀的model,方向应该不是更深,而是简化。是时候动一动卷积计算的形式了。

参考资料

[1] http://blog.youkuaiyun.com/zouxy09/article/details/8781543/ 
[2] ImageNet Classification with Deep Convolutional Neural Networks 
[3] http://blog.youkuaiyun.com/sunbaigui/article/details/39938097 
[4] http://blog.youkuaiyun.com/csyhhb/article/details/45967291 
[5] Going deeper with convolutions 
[6] VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

<think>好的,用户之前已经询问了深度学习的介绍,现在又具体问到了LeNetAlexNet。首先,我需要确定用户的需求是什么。他们可能在学习深度学习的基础知识,或者在做相关项目时需要了解经典模型。之前的回答已经覆盖了深度学习的基本概念、模型和应用,现在需要更详细地介绍这两个网络。 LeNetAlexNet都是卷积神经网络(CNN)中的经典模型,对深度学习的发展有重要影响。用户可能希望了解它们的结构、创新点以及应用场景。需要比较两者的异同,说明它们在历史中的地位,比如LeNet是最早的CNN之一,而AlexNet则在2012年的ImageNet竞赛中取得了突破,推动了深度学习的复兴。 接下来,我要检查之前的回答是否提到过这些模型。在深度学习的常见模型部分,确实提到了ResNet、VGG等,但没有详细展开LeNetAlexNet。所以现在需要补充这部分内容,详细解释它们的网络结构、关键技术和贡献。 用户可能还需要知道如何学习或实现这些模型,所以应该提到常用的框架如TensorFlow或PyTorch,并给出一些实践建议。另外,用户可能对这两个模型的应用场景和后续影响感兴趣,可以提到它们在图像识别领域的应用以及如何启发了后来的模型。 需要确保回答结构清晰,分点介绍每个模型,包括背景、结构、关键技术和影响。还要注意使用用户能理解的语言,避免过于技术化的术语,但也要准确传达关键概念,比如卷积层、池化层、ReLU激活函数等。 最后,考虑到用户可能有进一步的问题,可以邀请他们提问,比如是否想了解其他模型或实现细节。这有助于促进进一步的互动,满足用户的深层需求。</think>以下是关于**LeNet**和**AlexNet**的中文介绍,涵盖背景、结构、关键技术与历史意义: --- ### **1. LeNet(1998)** #### **背景与意义** - **提出者**:Yann LeCun(深度学习先驱)等人于1998年提出,主要用于手写数字识别(如邮政编码识别)。 - **历史地位**:**首个成功应用的卷积神经网络(CNN)**,奠定了CNN的基础结构,但因当时算力和数据限制未引起广泛关注。 #### **网络结构** - **输入层**:32×32灰度图像(如MNIST数据集)。 - **核心结构**: 1. **卷积层C1**:6个5×5卷积核 → 输出6张28×28特征图。 2. **池化层S2**:2×2平均池化 → 特征图尺寸减半(14×14)。 3. **卷积层C3**:16个5×5卷积核 → 输出16张10×10特征图。 4. **池化层S4**:2×2平均池化 → 特征图尺寸5×5。 5. **全连接层C5**:120个神经元(与池化层展开连接)。 6. **全连接层F6**:84个神经元。 7. **输出层**:10个神经元(对应0-9数字分类)。 - **激活函数**:使用**Sigmoid**或**Tanh**(当时ReLU尚未普及)。 - **损失函数**:均方误差(MSE)。 #### **关键技术** - **卷积与池化的交替使用**:提取局部特征并逐步降低维度。 - **权值共享**:减少参数数量,提升效率。 #### **影响** - 证明了CNN在图像任务中的有效性,但因硬件限制未能大规模应用。 --- ### **2. AlexNet(2012)** #### **背景与意义** - **提出者**:Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton于2012年提出。 - **历史地位**:在2012年ImageNet图像分类竞赛(ILSVRC)中以**Top-5错误率15.3%**夺冠(比第二名低10.8%),**引爆深度学习革命**。 #### **网络结构** - **输入层**:227×227×3彩色图像(实际处理时调整为224×224×3)。 - **核心结构**: 1. **卷积层1**:96个11×11卷积核,步长4 → 输出55×55×96特征图。 2. **池化层1**:3×3最大池化,步长2 → 输出27×27×96。 3. **卷积层2**:256个5×5卷积核,填充2 → 输出27×27×256。 4. **池化层2**:3×3最大池化 → 输出13×13×256。 5. **卷积层3**:384个3×3卷积核 → 输出13×13×384。 6. **卷积层4**:384个3×3卷积核 → 输出13×13×384。 7. **卷积层5**:256个3×3卷积核 → 输出13×13×256。 8. **池化层3**:3×3最大池化 → 输出6×6×256。 9. **全连接层6**:4096个神经元。 10. **全连接层7**:4096个神经元。 11. **输出层**:1000个神经元(对应ImageNet的1000类)。 #### **关键技术创新** 1. **ReLU激活函数** - 替代Sigmoid/Tanh,解决梯度消失问题,加速训练。 2. **数据增强(Data Augmentation)** - 随机裁剪、翻转、颜色变换,缓解过拟合。 3. **Dropout正则化** - 在全连接层随机丢弃神经元(概率0.5),减少过拟合。 4. **多GPU并行训练** - 首次利用双GPU(GTX 580)加速训练,将网络拆分为两条分支。 5. **局部响应归一化(LRN)** - 增强模型泛化能力(后续被Batch Normalization替代)。 #### **影响** - 证明了深度CNN在大规模图像任务中的潜力,推动GPU在深度学习中的应用。 - 启发了后续模型(如VGG、GoogLeNetResNet)的设计思路。 --- ### **3. LeNetAlexNet对比** | 特性 | LeNet(1998) | AlexNet(2012) | |--|-------------------------------------| | **输入尺寸** | 32×32灰度图 | 224×224×3彩色图 | | **网络深度** | 5层(2卷积+2池化+1全连接) | 8层(5卷积+3池化+3全连接) | | **激活函数** | Sigmoid/Tanh | ReLU | | **正则化方法** | 无 | Dropout + 数据增强 | | **训练硬件** | CPU | 双GPU(GTX 580) | | **参数量** | 约6万 | 约6000万 | | **应用场景** | 手写数字识别 | 大规模图像分类(ImageNet) | --- ### **4. 代码实现与学习建议** - **框架推荐**:使用PyTorch或TensorFlow复现LeNet/AlexNet(代码简洁,适合入门)。 - **数据集**: - LeNet:MNIST手写数字数据集(`torchvision.datasets.MNIST`)。 - AlexNet:ImageNet(简化版可用CIFAR-10/100)。 - **学习意义**: - 理解CNN基础结构与设计思想。 - 掌握卷积层、池化层、全连接层的组合方式。 --- 如果需要代码示例或更详细的模型训练技巧,可以进一步提问! 🚀
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值