CNN看清世界——浅谈四个经典网络的差异

本文介绍4种经典的卷积神经网络CNN,分别是AlexNet,VGGNet,Google Inception Net和ResNet,这4种网络依照出现的先后顺序排列,深度和复杂度也依次递进,并且在ILSVRC分类赛上表现突出。具体的网络结构的细节不作赘述,想必大家可以在搜索引擎上都可以找到满意的答案。本文就4种网络的微妙改之处进做一下个人的见解。仅供参考,如有错误,还望指出,互勉实现进步。

首先,隆重介绍之前,先花点时间说一下LeNet5,其是最早的深层卷积神经网络之一,大概的网络结构示意图如图1-1所示。由于图像具有很强的空间相关性,直接使用独立的像素作为输入则利用不到这些相关性,而训练参数的卷积层是一种可以用少量参数在图像的多个位置上提取相似特征的有效方式。LeNet5在当时的成功可以归纳为以下几点:

1.首次将卷积用到神经网络中,目的在于降低计算的参数量。

2.使用非线性激活函数(双曲正切Tanh和S型Sigmoid)。

3.降采样(Down-Sampling)降低输出参数量,提高了模型的泛化能力。


 图 1-1 LeNet-5结构示意图

2012年ILSVRC冠军AlexNet

AlexNet的结构示意图如1-2所示,每层的参数信息如图1-3所示,相比之前的卷积网络有了显著的改进,概括为以下几点:

1.使用ReLU作为CNN的激活函数,成功解决了Sigmoid在网络较深时的梯度弥散问题。

补充:梯度弥散问题是指Sigmoid函数在反向传播中梯度值会逐渐减小,经过多层的传递后会呈指数级急剧减小,因此梯度值在传递到前面几层时就变得非常小了。这种情况下,根据训练数据的反馈来更新神经网络的参数将会非常缓慢,基本起不到训练的作用。具体的求导过程可参考文章【1】

2.训练时使用Dropout(失活)随机忽略一部分神经元,以避免模型过拟合。

补充:过拟合是机器学习中一个常见的问题,它是指模型预测准确率在训练集上升高,但是在测试集上反而下降了,通常意味着模型的泛化性不好。Dropout可以理解成随机把一张图片50%的点删除掉(即随机将50%的点变成黑点),此时还可以识别出这张图片的类别,这种做法实质上等同于创造出了很多新的随机样本,通过增大样本量、减少特征数量来防止过拟合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值