后三层:全连接
每个全连接层有4096个神经元。
- 第6层:
卷积:因为是全连接层,卷积核size为6×6×256,4096个卷积核生成4096个特征图,尺寸为1×1。然后放入ReLU函数、Dropout处理。 - 第7层:
同第六层 - 第8层:
最后一层全连接层的输出是1000维softmax的输入,softmax会产生1000个类别预测的值。
逐层网络结构图:
AlexNet的创新点:
1.ReLU激活函数
AlexNet之前神经网络一般使用**tanh
或者sigmoid
作为激活函数,这些激活函数在计算梯度的时候都比较慢,而AlexNet提出的ReLU
**表达式为:
实验结果表明,要将深度网络训练至training error rate达到25%的话,ReLU只需5个epochs的迭代,但tanh单元需要35个epochs的迭代,用ReLU比tanh快6倍。
ReLU激活函数的图像:
2.随机失活(dropout)
Dropout属于正则化技术中的一种,dropout的作用是增加网络的泛化能力,可以用在卷积层和全连接层。但是在卷积层一般不用dropout, dropout是用来防止过拟合的过多参数才会容易过拟合,卷积层参数本来就没有全连接层参数多,因此,dropout一般常用在全连接层。该方法通过让全连接层的神经元(该模型在前两个全连接层引入Dropout)以一定的概率失去活性(比如0.5)失活的神经元不再参与前向和反向传播,相当于约有一半的神经元不再起作用。
3.局部响应归一化(Local Response Normalization)
由于上文提到该处理手段存在较大争议,且目前大多数AlexNet的网络结构也都未曾使用该处理手段,所以这里就不言了。如果大家感兴趣可以看看上方的原论文与2015年的《Very Deep Convolutional Networks for Large-Scale Image Recognition》
4. 很多数据增强技术
1. 第一种数据增强的方法是将原图片大小为256*256中随机的提取224*224的图片,以及他们水平方向的映像。
2. 第二种数据增强的方法就是在图像中每个像素的R、G、B值上分别加上一个数,用到的方法为PCA。
3. AlexNet训练采用的是SGD。
AlexNet网络结构具有如下特点:
1.AlexNet在激活函数上选取了非线性非饱和的relu函数,在训练阶段梯度衰减快慢方面,relu函数比传统神经网络所选取的非线性饱和函数(如sigmoid函数,tanh函数)要快许多。
2.AlexNet在双gpu上运行,每个gpu负责一半网络的运算。
<