激活函数详解-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_42403361/article/details/127994859

激活函数（Activation Function），在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出

1.阶跃函数
在这里插入图片描述
阈值区分：
$f(x)=\left\{ \begin{aligned} 1，if \quad x \geq T\\ 0，if \quad x<T \\ \end{aligned} \right.$
优点：简单易用
缺点：函数不光滑不连续不可导

线性函数
在这里插入图片描述
$f (x) = a x + b$
优点：多个输出，不仅仅是“是”和“不是”（1/0）
缺点：
（1）无法用梯度下降法训练模型，导数是常数，与输入x无关，不利于模型求解过程中对权重的确定。
（2）神经网络的所有层都将折叠为线性激活关系，最后一层都是第一层的线性函数。

sigmoid函数

$f（x）=\frac{1}{1+e^{-x}}$
优点：
（1）平滑的渐变，防止输出值“跳跃”；
（2）输出值介于0.1之间，对于每一个神经元的输出进行标准化；
（3）清晰的预测：对于大于2或小于-2的x，趋向于将y带到曲线边缘，无限接近于1或0.
缺点：
（1）消失梯度：双边区域数值饱和（x很大或很小）导致随着x变化带来的y变化很小，导数趋于0，容易造成模型求解梯度消失问题。可能导致网络求解过程中进一步学习，或者太慢而无法获得准确预测。
（2）输出y中心不是0.

Tanh函数
在这里插入图片描述
$f（x）=\frac{e^x-e^{-x}}{e^x+e^{-x}}=2sigmoid(2x)-1$
优点：
（1）正负方向原点对称，输出均值是0，收敛速度比sigmoid更快，减少迭代次数
（2）具有sigmoid函数的优点
缺点：
（1）与sigmoid函数一样，存在梯度消失问题

Relu函数
在这里插入图片描述 $f (x) = m a x (0, x)$
优点：
（1）计算效率高，允许网络快速收敛
（2）非线性，具有导数函数并允许反向传播

缺点：
（1）神经元死亡问题：当输入接近0或为负时，函数梯度变为0，网络无法执行反向传播，也无法学习。

Leaky Relu函数
在这里插入图片描述
$f (x) = m a x (a x, x)$
优点：
（1）解决了Relu的神经元死亡问题，在负区域具有小的正斜率，即使对于负输入值，也可进行反向传播
（2）具有Relu函数的优点.
缺点：
（1）结果不一致，无法为正负输入值提供一致的关系预测（不同区间函数不同）