为什么可以ReLU 加速训练（梯度不饱和），缓解梯度消失问题。

最新推荐文章于 2025-06-05 23:30:04 发布

计算机小混子

最新推荐文章于 2025-06-05 23:30:04 发布

阅读量685

点赞数 6

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：人工智能

本文链接：https://blog.youkuaiyun.com/Johnor/article/details/146587106

8 篇文章

订阅专栏

ReLU（Rectified Linear Unit，修正线性单元）是一种常用的激活函数，其定义为 $ f(x) = \max(0, x) $。在深度学习中，ReLU 能够加速训练并缓解梯度消失问题，主要原因在于其数学特性和对梯度的影响。以下是详细解释：

定义
$\max(0, x)$
- 如果输入 $ x \geq 0 $，输出为 $ x $；
- 如果输入 $ x < 0 $，输出为 0。
导数
$\begin{cases} 1, & \text{if } x > 0 \\ 0, & \text{if } x \leq 0 \end{cases}$
- 对于 $ x > 0 $，导数为 1；
- 对于 $ x \leq 0 $，导数为 0（在 $ x = 0 $ 处导数不连续，但在实践中通常定义为 0 或 1）。
特性
- 非线性：ReLU 引入了非线性，使网络能够学习复杂的非线性模式。
- 稀疏性：ReLU 将负值置为 0，导致部分神经元输出为 0，增加了网络的稀疏性（sparsity），有助于减少过拟合。
- 简单计算：ReLU 的计算非常简单（仅需比较和取最大值），比 sigmoid 或 tanh 的指数运算更快。

ReLU 加速训练的原因主要与以下几点有关：

传统激活函数的问题
- 传统激活函数如 sigmoid 和 tanh 存在梯度饱和问题：
  - Sigmoid
  - - 当 $ x $ 很大或很小（例如 $ |x| > 5 $）时，$ \sigma(x) $ 接近 0 或 1，导数 $ \sigma’(x) $ 接近 0。
  - Tanh
    - 类似地，当 $ |x| $ 很大时，$ \tanh(x) $ 接近 ±1，导数接近 0。
- 这种梯度饱和导致梯度在反向传播时变得非常小，尤其在深层网络中，梯度会逐渐消失（梯度消失问题），使参数更新非常缓慢。
ReLU 的优势
- 对于 $ x > 0 $，ReLU 的导数恒为 1，不会发生梯度饱和。
- 只要输入 $ x $ 是正值，梯度就不会因为激活函数而变小，保持了梯度的稳定性。
- 相比 sigmoid 和 tanh，ReLU 在正值区域的梯度始终为 1，避免了梯度在反向传播中的指数衰减，从而加速了梯度下降的收敛。

梯度消失问题
- 在深层网络中，梯度通过链式法则逐层反向传播： $∂L∂w=∂L∂a⋅∂a∂z⋅∂z∂w\frac{\partial L}{\partial w} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w}$ 其中 $ \frac{\partial a}{\partial z} $ 是激活函数的导数。
- 如果激活函数的导数很小（例如 sigmoid 在饱和区域的导数接近 0），梯度会在每一层成倍缩小，经过多层后几乎消失，导致深层网络的参数无法有效更新。
ReLU 的作用
- 对于 $ x > 0 $，ReLU 的导数为 1，梯度不会因为激活函数而缩小。
- 只要网络中有部分神经元的输入是正值，梯度就能通过这些神经元有效传播到前层，避免了梯度消失问题。
- 即使某些神经元的输入 $ x \leq 0 $，导数为 0（梯度为 0），也不会导致整个网络的梯度消失，因为其他正值神经元仍能传播梯度。

稀疏性
- ReLU 将负值置为 0，导致部分神经元输出为 0，增加了网络的稀疏性。
- 例如，在 AlexNet 中（参考第十九张图），ReLU 使许多神经元在训练过程中输出为 0，减少了后续层的计算量。
加速训练
- 稀疏性减少了需要计算的神经元数量，降低了前向传播和反向传播的计算成本。
- 稀疏性还使梯度更新更集中于活跃的神经元（输出非 0 的神经元），提高了训练效率。

计算效率
- ReLU 的计算非常简单（仅需比较和取最大值），相比 sigmoid 和 tanh 的指数运算（例如 $ e^x $），计算成本更低。
- 在深层网络中，激活函数会被调用无数次，ReLU 的简单性显著减少了训练时间。

AlexNet 的创新
- AlexNet 首次大规模使用 ReLU 激活函数（图中标注为“ReLU”）。
- 相比 LeNet-5 的 sigmoid/tanh（参考第十九张图），ReLU 显著加速了训练：
  - AlexNet 的参数数量为 60M（6000万），远大于 LeNet-5 的 60K（6万）。
  - 如果使用 sigmoid/tanh，梯度消失问题会使训练非常缓慢，甚至无法收敛。
效果
- ReLU 使 AlexNet 能够在合理的时间内完成训练（2012 年使用两块 GPU）。
- 在 ImageNet 数据集上，AlexNet 取得了 top-5 错误率 15.3% 的突破性成果，远低于传统方法。

尽管 ReLU 有显著优势，但也存在一些问题：

死神经元问题（Dying ReLU）
- 当输入 $ x \leq 0 $，ReLU 的导数为 0，导致这些神经元在训练过程中无法更新（“死亡”）。
- 如果学习率过高或输入数据分布不佳，可能导致大量神经元“死亡”，降低网络的表达能力。
改进方法
- Leaky ReLU：$ f(x) = \max(\alpha x, x) $，其中 $ \alpha $ 是一个小的正数（例如 0.01），允许负值区域有非零梯度。
- Parametric ReLU (PReLU)：将 $ \alpha $ 作为可学习的参数。
- ELU (Exponential Linear Unit)：在负值区域使用指数函数，平滑过渡。