33、深度神经网络训练指南

五行擒拿术

于 2025-08-17 16:30:23 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：动手学AI：从零到精通文章标签：深度神经网络梯度消失梯度爆炸

本文链接：https://blog.youkuaiyun.com/table/article/details/152288479

动手学AI：从零到精通专栏收录该内容

77 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度神经网络训练指南

1. 深度神经网络训练难题

在处理复杂问题时，如高分辨率图像中检测数百种物体，可能需要训练更深层次的人工神经网络（ANN），其可能包含10层或更多层，每层有数百个神经元，通过数十万条连接相连。然而，训练深度神经网络并非易事，可能会遇到以下问题：
- 梯度消失或爆炸 ：训练过程中，梯度在反向传播时可能变得越来越小或越来越大，这使得底层网络难以训练。
- 数据不足或标注成本高 ：大型网络可能需要大量的训练数据，且标注数据的成本可能过高。
- 训练速度慢 ：深度网络的训练可能非常耗时。
- 过拟合风险 ：拥有数百万参数的模型很容易过拟合训练集，特别是当训练实例不足或数据噪声较大时。

2. 梯度消失/爆炸问题

反向传播算法的第二阶段是从输出层向输入层传播误差梯度，然后使用这些梯度通过梯度下降步骤更新网络中的每个参数。但在实际训练中，梯度往往会随着算法向底层推进而变得越来越小，导致底层连接权重几乎不变，训练无法收敛到良好的解决方案，这就是梯度消失问题。相反，梯度也可能变得越来越大，导致层的权重更新过大，算法发散，这就是梯度爆炸问题，在循环神经网络中尤为常见。

早期研究发现，使用流行的Sigmoid激活函数和当时常用的权重初始化技术（均值为0、标准差为1的正态分布），会导致每层输出的方差远大于输入的方差，随着网络的推进，方差不断增加，直到顶层激活函数饱和。Sigmoid函数在输入较大时导数接近0，反向传播时几乎没有梯度可以传播，使得底层几乎得不到有效的梯度更

会员秒杀 ¥9.9 重磅福利

超级会员免费看