手把手搭建经典神经网络系列(1)——AlexNet(1)

后三层:全连接

每个全连接层有4096个神经元。

  • 第6层:
    卷积:因为是全连接层,卷积核size为6×6×256,4096个卷积核生成4096个特征图,尺寸为1×1。然后放入ReLU函数、Dropout处理。
  • 第7层:
    同第六层
  • 第8层:
    最后一层全连接层的输出是1000维softmax的输入,softmax会产生1000个类别预测的值。

逐层网络结构图:

AlexNet的创新点:

1.ReLU激活函数

AlexNet之前神经网络一般使用**tanh或者sigmoid作为激活函数,这些激活函数在计算梯度的时候都比较慢,而AlexNet提出的ReLU**表达式为:

f\left ( x \right ) = max\left ( 0 ,x\right )

实验结果表明,要将深度网络训练至training error rate达到25%的话,ReLU只需5个epochs的迭代,但tanh单元需要35个epochs的迭代,用ReLU比tanh快6倍。

ReLU激活函数的图像:

2.随机失活(dropout)

Dropout属于正则化技术中的一种,dropout的作用是增加网络的泛化能力,可以用在卷积层和全连接层。但是在卷积层一般不用dropout, dropout是用来防止过拟合的过多参数才会容易过拟合,卷积层参数本来就没有全连接层参数多,因此,dropout一般常用在全连接层。该方法通过让全连接层的神经元(该模型在前两个全连接层引入Dropout)以一定的概率失去活性(比如0.5)失活的神经元不再参与前向和反向传播,相当于约有一半的神经元不再起作用

3.局部响应归一化(Local Response Normalization)

由于上文提到该处理手段存在较大争议,且目前大多数AlexNet的网络结构也都未曾使用该处理手段,所以这里就不言了。如果大家感兴趣可以看看上方的原论文与2015年的《Very Deep Convolutional Networks for Large-Scale Image Recognition》

4. 很多数据增强技术

1. 第一种数据增强的方法是将原图片大小为256*256中随机的提取224*224的图片,以及他们水平方向的映像。

2. 第二种数据增强的方法就是在图像中每个像素的R、G、B值上分别加上一个数,用到的方法为PCA。

3. AlexNet训练采用的是SGD。

AlexNet网络结构具有如下特点:

1.AlexNet在激活函数上选取了非线性非饱和的relu函数,在训练阶段梯度衰减快慢方面,relu函数比传统神经网络所选取的非线性饱和函数(如sigmoid函数,tanh函数)要快许多

2.AlexNet在双gpu上运行,每个gpu负责一半网络的运算。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值