激活函数是如何简化计算的_激活函数的导数用来干什么-优快云博客

本文链接：https://blog.youkuaiyun.com/courniche/article/details/145319555

我们都知道激活函数主要是用来引入非线性，并对网络选择、过滤和激活的，在反向传播计算过程中，激活函数还起到了简化计算的作用。

一、激活函数的作用

激活函数主要用于引入非线性，使神经网络具备拟合复杂函数和处理非线性问题的能力。如果没有激活函数，神经网络的层与层之间的计算可以用矩阵乘法表示，整个模型相当于一个线性变换，无法解决复杂问题。以下是几种常用激活函数及其导数：

1、Sigmoid函数:
- 定义： $\sigma (x)=\frac{1}{1+e^{-x}}$
  - Sigmoid函数将输入压缩到范围 (0,1)(0,1) 之间，是一种常用的S型曲线激活函数。
- 导数： $\sigma {}'(x)=\sigma (x)\cdot (1-\sigma (x))$
  - Sigmoid函数的导数与其输出值直接相关，计算时只需一次前向传播的结果即可，不需要额外的复杂计算。
- 特点：
  - 输出范围在 (0,1)(0,1) 之间。
  - 导数形式简单，适合二分类问题。
  - 由于在极大值或极小值处（如输入非常大或非常小）梯度接近0，可能导致梯度消失问题。
2、ReLU（Rectified Linear Unit）函数:
- 定义： $f(x)=max(0,x)$
  - ReLU函数将输入值的负部分裁剪为零，正值部分保持不变。
- 导数： $f{}'(x)=\left\{\begin{matrix} 1 & if x> 0\\ 0 &ifx\leq 0 \end{matrix}\right.$
  - ReLU导数非常简单，对正输入值为1，对非正输入值为0。
- 特点：
  - 计算简单且高效，能够加速收敛。
  - 缓解了梯度消失问题，使深度网络中的梯度能够更好地传播。
  - 但可能会导致某些神经元的输出恒为0，出现“死亡ReLU”问题。
3、Tanh函数:
- 定义： $tanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$
  - Tanh函数是S型函数的一种变体，将输入压缩到范围 (−1,1)(−1,1) 之间。
- 导数： $tanh{}'(x)=1-tanh^{2}(x)$
  - Tanh的导数同样依赖于其输出值，计算上非常高效。
- 特点：
  - 输出范围在 (−1,1)(−1,1) 之间，相对于Sigmoid函数，输出的均值更接近零，更适合用于深层神经网络。
  - 但仍存在梯度消失问题，尤其是在输入值较大或较小时。
4、Leaky ReLU函数:
- 定义： $f(x)=\left\{\begin{matrix} x & if x>0\\ \alpha x & ifx\leq 0 \end{matrix}\right.$
  - Leaky ReLU是ReLU的改进版，对负输入值赋予一个很小的斜率 αα（通常 α=0.01α=0.01）
- 导数： $f{}'(x)=\left\{\begin{matrix} 1 & if x>0\\ \alpha & ifx\leq 0 \end{matrix}\right.$
  - Leaky ReLU导数对负输入值非零，能够保持梯度流动。
- 特点：
  - 避免了ReLU对负输入的“死亡问题”，保持一定的梯度信息。
  - 对负值的输出具有较小的响应，能够有效处理一些特殊情况。