神经网络VD问题

梯度消失问题解析

最新推荐文章于 2024-06-06 18:44:33 发布

原创最新推荐文章于 2024-06-06 18:44:33 发布 · 723 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络

法专栏收录该内容

16 篇文章

订阅专栏

综述

随着神经网络每层的学习速度其实是不一样的，并且随着层数增加这个问题就越来越明显。一般来说，接近输出层学习速率快，前面的层数学习慢，并随着层数增加学习越来越慢。这种情况我们称为梯度消失（vanishing gradient problem）。下面我们就来分析一下为什么会出现这种情况，并给出解决方案。

理论推导

若有一个神经网络如下：

这里写图片描述

神经网络有6层，其中每层都有一个神经元。要想知道为什么层数增加训练的越来越慢自然而然的想到考察一下梯度与变量间的变化关系，因此首先来考察一下b与梯度的变化关系。
下面就是理论上的推导了：

假设：

\partial C \partial b 1 \approx Δ C Δ b 1

$\frac{\partial{C}}{\partial{b_1}}\approx {\frac{\Delta{C}}{{\Delta{b_1}}}{}}$

那么：

Δ a 1 Δ b 1 \approx \partial σ ( w 1 a 0 + b ) \partial b 1

$\frac{\Delta{a_1}}{\Delta{b_1}}\approx{\frac{\partial{\sigma(w_1a_0+b)}}{\partial{b_1}}}$

Δ a 1 \approx \partial σ ( w 1 a 0 + b ) \partial b 1 Δ b 1

$\Delta{a_1}\approx{\frac{\partial{\sigma(w_1a_0+b)}}{\partial{b_1}}}\Delta{b_1}$

Δ a 1 \approx \partial σ ( z ) \partial ( z ) * \partial z \partial b 1 * Δ b 1

$\Delta{a_1}\approx{\frac{\partial{\sigma(z)}}{\partial(z)}}*\frac{\partial{z}}{\partial{b_1}}*\Delta{b_1}$

Δ a 1 \approx \nabla σ (z) * 1 * Δ b 1

$\Delta{a_1}\approx{\nabla{\sigma{(z)}}}*1*\Delta{b_1}$
注：

∇σ(z) $\nabla{\sigma{(z)}}$ 表示对z求导。

此时我们得出了 $b_1$ 的变化对 $z_1$ 的影响，而 $a_1$ 的变化又会对 $z_2$ 产生影响因为 $z_2=w_2*a_1+b_2$ 那么此时：

Δ z 2 \approx \partial z 2 \partial a 1 Δ a 1 = w 2 Δ a 1

$\Delta{z_2}\approx\frac{\partial{z_2}}{\partial{a_1}}\Delta{a_1} = w_2 \Delta{a_1}$

综合上面的分析把 $a_1$ 的变化代入 $z_2$ 的变化得到：

Δ z 2 \approx w 2 * \nabla σ (z) * Δ b 1

$\Delta{z_2}\approx w_2*\nabla{\sigma{(z)}}*\Delta{b_1}$

依次类推的到：

Δ C \approx w 2 * \nabla σ (z 1) * \nabla σ (z 2) . . . . \nabla σ (z 4) * \partial c \partial a 4 Δ b 1

$\Delta{C}\approx w_2*\nabla{\sigma{(z_1)}}*\nabla{\sigma{(z_2)}}....\nabla{\sigma{(z_4)}}*\frac{\partial{c}}{\partial{a_4}}\Delta{b_1}$
注：有人可能要问怎么简单的就出来了C了呢？其实这个问题要看一下最初始神经网络的推导：

\partial C \partial b = \partial C \partial a * \partial a \partial z * \partial z \partial b

$\frac{\partial{C}}{\partial{b}} = \frac{\partial{C}}{\partial{a}} * \frac{\partial{a}}{\partial{z}}*\frac{\partial{z}}{\partial{b}}$
前面推导出了

∂a∂z∗∂z∂b $\frac{\partial{a}}{\partial{z}}*\frac{\partial{z}}{\partial{b}}$ 现在我只需要把推导出的代入后面两部分，加上变换就可以了。

等式两边同时除以 $\Delta{b_1}$ 得到：

Δ C Δ b 1 \approx w 2 * \nabla σ (z 1) * \nabla σ (z 2) . . . . \nabla σ (z 4) * \partial C \partial a 4

$\frac{\Delta{C}}{\Delta{b_1}}\approx w_2*\nabla{\sigma{(z_1)}}*\nabla{\sigma{(z_2)}}....\nabla{\sigma{(z_4)}}*\frac{\partial{C}}{\partial{a_4}}$

到现在终于推导完成了，长舒一口气。。。。
下面分析一下这个变化中的值，首先我们在初始w时，我们一般初始化为绝对值小于1的数。再来看导数部分：
这里写图片描述
观察导数图像发现，最大值为0.25。于是对于这个连乘公式，里面的数都小于1.随着层数增加，最终的变化率将越来越小。以至于趋近于零。

解决VD问题

经过上文理论推导，我们发现这个问题中核心是激活函数。sigmod的导数最大值1/4成为连乘越来越小的关键。自然我们也想另外选取激活函数来解决这个问题。下面祭出核心大杀器：
Rectified linear unit（ReLU）
线性整流函数f(x) = max(0,x),我们对比一下几个函数的图像：
这里写图片描述