关于 Alex 的传说……大家随便听个报告都会讲到,这里就不说了。本文主要目的是为自己梳理知识,以便日后复习。
- 网络结构
- ReLU
- Dropout
AlexNet
ImageNet Classification with Deep Convolutional Neural Networks
http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-network
前5层是卷积层
,后3层是全连接层
,
每层卷积层后接RuLU
激活
前两层和最后一层卷积后有池化
,具体如下图。

ReLU Nonlinearity

激活函数是从 Sigmoid 到 tanh 到 ReLU 的,最初用 Sigmoid
存在三个问题
-
Saturated neurons “kill” the gradients.
- 当输入 x=0 时,梯度为0.25,当网络层数浅是是OK的,但数值计算中学过当极端情况下,多个小数相乘会等于0,深层网络也