为什么sigmoid会造成梯度消失？

outsider0007

已于 2022-09-18 18:23:36 修改

阅读量1.8w

点赞数 38

CC 4.0 BY-SA版权

分类专栏： ML&DL原理文章标签：深度学习 sigmoid 激活函数

于 2019-03-25 22:06:12 首次发布

本文链接：https://blog.youkuaiyun.com/qq_37667364/article/details/88806870

ML&DL原理专栏收录该内容

26 篇文章

订阅专栏

本文通过数学分析探讨了在神经网络中使用sigmoid激活函数时梯度消失的现象。文章指出，当网络深度增加时，梯度在反向传播过程中逐渐减小，导致靠近输入层的权重几乎无法更新，从而影响模型的学习能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里仅仅做一些数学上的简单分析，首先看sigmoid的公式：

$sigmoid= \sigma(z) = \frac{1}{1+e^{-z}}$

它的导数：

$\sigma(z)' = \frac{e^{-z}}{(1+e^{-z})^2}=\sigma (z)*(1-\sigma(z))$

$\sigma(z)$ 的图像如下：

也就是说任何输入都会被缩放到0到1，如果隐层的所有layer都使用sigmoid，除了第一层的输入，最后一层的输出，其他层的输入输出都是0到1，看看 $\sigma(z)'$ 的完整图像：

z大概在-5到5之间， $\sigma(z)'$ 才有值，而除第一层隐层的输入都在0到1之间，所以 $\sigma(z)'$ 的图像如下：

$\sigma(z)'$ 最终取值大概0.2到0.25之间，下面以一个简单的神经原结构举例：

$\frac{\partial L}{\partial z} = \sigma '(z)(w1 \frac{\partial L}{\partial z'}+w2 \frac{\partial L}{\partial z''})$

$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial z} \frac{\partial z}{\partial w}=a\frac{\partial L}{\partial z}$

由于 $\sigma(z)'$ 会把 $\frac{\partial L}{\partial z}$ 缩小4至5倍，而这个 $\frac{\partial L}{\partial z}$ 又会影响前一层的 $\frac{\partial L}{\partial z}$ ，反向下去，每一层的 $\frac{\partial L}{\partial z}$ 在不断被缩小，深度越深这种连锁反应越明显，越靠近输入层越小， $\frac{\partial L}{\partial w}$ 中a又是0到1之间的梯度再次被整体缩小，这里主要考虑了 $\sigma '(z)$ 以及 $\frac{\partial L}{\partial z}$ 的传递性以及输入a带来的影响，我认为权重w只会对局部的 $\frac{\partial L}{\partial z}$ 带来影响，而 $\sigma(z)'$ 带来的这种连续缩小的影响将传递到计算前层的 $\frac{\partial L}{\partial z}$ 中。