Training Neural Networks
Actiation Functions

几种常见的激活函数

Sigmoid 函数

σ(x)=11+e−x\sigma(x) = \frac{1}{1 + e^{-x}}σ(x)=1+e−x1
- 将输入值挤压到 0到1的范围之间
- 在历史中常用,对神经元的“firing rate” 有良好的解释
缺点:
- sigmoid 饱和的时候,梯度消失
当输入的x过大,或者过小,local gredian 趋近于0,local 梯度与上游传来的梯度相乘,趋近于0,参数几乎无法更新
为了防止饱和,对于权重矩阵的初始化必须特别留意,如果权重过大,那么大多数神经元将饱和,网络几乎不再更新。
- sigmoid 函数不是零中心的
这一情况将影响梯度下降的速度,因为如果输入神经元的数据X总是正数,那么 dσdW=XT∗σ′\frac{d\sigma}{dW} = X^T * \sigma'dWdσ=

本文介绍了常用的激活函数,如Sigmoid、tanh和ReLU及其变种,并探讨了数据预处理的重要性,包括均值减除和归一化。此外,还详细讨论了权重初始化策略,如Xavier/He初始化。
最低0.47元/天 解锁文章
751

被折叠的 条评论
为什么被折叠?



