深度学习中梯度消失原因、梯度爆炸及解决方案

原创已于 2022-03-16 14:00:32 修改 · 9.1k 阅读

41 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #神经网络 #机器学习

于 2021-12-20 14:05:21 首次发布

神经网络专栏收录该内容

30 篇文章

订阅专栏

本文探讨了梯度消失和梯度爆炸的原因及其解决方案。梯度消失主要由于深层网络及不合适的激活函数引起，而梯度爆炸则由相似原因造成但表现为梯度过大。文章还介绍了多种缓解梯度问题的技术，包括预训练加微调、ReLU激活函数、批量归一化、残差网络和LSTM结构。

部署运行你感兴趣的模型镜像

梯度消失产生的原因

梯度消失产生的主要原因有：一是使用了深层网络，二是采用了不合适的损失函数。

（1）目前优化神经网络的方法都是基于BP，即根据损失函数计算的误差通过梯度反向传播的方式，指导深度网络权值的更新优化。其中将误差从末层往前传递的过程需要链式法则（Chain Rule）的帮助。而链式法则是一个连乘的形式，所以当层数越深的时候，梯度将以指数形式传播。梯度消失问题一般随着网络层数的增加会变得越来越明显。在根据损失函数计算的误差通过梯度反向传播的方式对深度网络权值进行更新时，得到的梯度值接近0，也就是梯度消失。

（2）计算权值更新信息的时候需要计算前层偏导信息，因此如果激活函数选择不合适，比如使用sigmoid，梯度消失就会很明显，原因如果使用sigmoid作为损失函数，其梯度是不可能超过0.25的，这样经过链式求导之后，很容易发生梯度消失。

梯度爆炸产生的原因

梯度爆炸产生的主要原因有：一是使用了深层网络，二是采用了不合适的损失函数。
梯度爆炸和梯度消失恰好相反，在根据损失函数计算的误差通过梯度反向传播的方式对深度网络权值进行更新时，得到的梯度值变为NAN，也就是梯度爆炸。

解决办法

梯度消失

（1）pre-training+fine-tunning

此方法来自Hinton在2006年发表的一篇论文，Hinton为了解决梯度的问题，提出采取无监督逐层训练方法，其基本思想是每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，此过程就是逐层“预训练”（pre-training）；在预训练完成后，再对整个网络进行“微调”（fine-tunning）。此思想相当于是先寻找局部最优，然后整合起来寻找全局最优，此方法有一定的好处，但是目前应用的不是很多了。