梯度消失

最新推荐文章于 2025-04-06 20:23:26 发布

火鸡哥

最新推荐文章于 2025-04-06 20:23:26 发布

阅读量518

点赞数

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/u012587024/article/details/89885126

版权

机器学习专栏收录该内容

33 篇文章

订阅专栏

博客主要探讨了梯度消失产生的原因，以简单神经网络为例，分析使用sigmoid激活函数和标准高斯分布初始化权重时，随着层数增加梯度变小的问题。同时给出解决方案，包括使用relu等激活函数、预训练+微调以及采用LSTM网络。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1､梯度消失产生的原因

我们先来看一个最简单的神经网络，如上图：
$\sigma(\sigma(\sigma(x·w_1+b_1)·w_2+b_2)·w_3+b_3)$

接下来我们来看看b1的梯度，假设 $x·w_1+b_1,B=\sigma(A)·w_2+b_2,D=\sigma(B)·w_3+b_3$ ,那么 $\sigma(D)$ ，则有：

$\frac{dc}{db_1} = \frac{d\sigma(D)}{dD}·\frac{dD}{d\sigma(B)}·\frac{d\sigma(B)}{dB}·\frac{dB}{d\sigma(A)}·\frac{d\sigma(A)}{dA}·\frac{dA}{db_1}$

$=\sigma^{'}_D·w_3·\sigma^{'}_B·w_2·\sigma^{'}_A·1$

$=\sigma^{'}_D·w_3·\sigma^{'}_B·w_2·\sigma^{'}_A$

我们知道，卷积层都使用relu、leakrelu、elu等激活函数，但为什么不使用sigmoid作为卷积层的激活函数呢？我们假设 $\sigma(x)$ 是sigmoid激活函数。
$\sigma(x) = \frac{1}{1+e^{-x}}$
sigmoid函数值区间是(0,1),导数值区间是 $(-\infty，\frac{1}{4})$ ,这里就不做证明了。

那现在，如果我们使用标准方法来初始化网络中的权重，那么会使用一个均值为0 标准差为1 的高斯分布。因此所有的权重通常会满足 $w_i|<1$ 。从而有 $w_i\sigma^{'} < \frac{1}{4}$ 。随着层数的增加，梯度越来越小，这就是消失的梯度出现的本质原因。

2､解决方案

上述说明梯度消失中有两个假设：
假设一：激活函数是sigmoid；
假设二：权重是均值为0,标准差为1的标准高斯分布；
那解决方案自然就是从这两个假设入手了。

2.1､relu、leakrelu、elu等激活函数

该解决方案是从假设一入手的，使用relu等激活函数，使得 $\sigma^{'} >= 1$ 。

relu激活函数： $r e l u (x) = m a x (x, 0)$ ，即 $\begin{cases} 0, & x<0 \\ x, & x>=0 \end{cases}$

优点：

解决了梯度消失、爆炸的问题 – 计算方便，计算速度快；
加速了网络的训练。

缺点：

由于负数部分恒为0，会导致一些神经元无法激活(可通过设置小学习率部分解决);
输出不是以0为中心的。

leakRelu激活函数： $l e a k R e l u (x) = m a x (0, x) + l e a k * m i n (0, x)$ ，
即 $\begin{cases} leak*x, & x<0 \\ x, & x>=0 \end{cases}$

leakRelu解决了relu的0区间带来的影响，leak系数一般选择0.01或者0.02，或者通过学习而来。根据leak的选择，又可以分为LeakyReLU、PReLU和RReLU：
LeakyReLU：leak值固定；
PReLU：leak值根据数据变化；
RReLU：在指定范围内根据数据变化。

elu激活函数： $\begin{cases} a·(e^x-1), & x<0 \\ x, & x>=0 \end{cases}$