30、深度神经网络中的梯度不稳定问题及解决方案-优快云博客

本文链接：https://blog.youkuaiyun.com/github5actions/article/details/154856544

深度神经网络中的梯度不稳定问题及解决方案

在深度神经网络中，梯度不稳定是一个常见且严重的问题，它会导致训练过程变得困难，甚至无法收敛。本文将探讨梯度不稳定问题的成因，并介绍一些有效的解决方案，包括Glorot和He初始化方法、非饱和激活函数以及批量归一化（Batch Normalization）技术。

1. 梯度不稳定问题的成因

在某些情况下，神经网络各层输出的方差远大于其输入的方差。随着网络的前向传播，每一层的方差不断增加，直到顶层的激活函数达到饱和。以逻辑激活函数为例，当输入值变得很大（正或负）时，函数会饱和于0或1，其导数极其接近0。这意味着在反向传播时，几乎没有梯度可以在网络中传播，而且仅有的少量梯度在经过顶层时会不断被稀释，导致底层几乎没有梯度可用。

2. Glorot和He初始化方法

为了缓解梯度不稳定问题，Glorot和Bengio提出了一种初始化策略，即Glorot初始化（也称为Xavier初始化）。他们认为，为了使信号在正向预测和反向传播梯度时都能正常流动，每一层输出的方差应等于其输入的方差，并且梯度在反向传播经过一层前后应具有相等的方差。虽然只有当层的输入和神经元数量相等时才能同时保证这两个条件，但Glorot和Bengio提出了一个很好的折衷方案：将每一层的连接权重随机初始化，公式如下：
- 对于正态分布，方差 $\sigma^2 = \frac{1}{fan_{avg}}$，其中 $fan_{avg} = \frac{fan_{in} + fan_{out}}{2}$。
- 对于均匀分布，$r = \sqrt{\frac{3}{fan_{avg}}}$，权重在 $[-r, +r]$ 范围内随机取值。