深度网络的训练经验总结(参数篇)_深度网络训练经验值 loss rate-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_37002417/article/details/105564652

本文总结了深度网络训练中的关键参数，包括数据集准备、超参数设置（batch size、learning rate、optimizer、activation、参数初始化）、防止过拟合的策略以及训练前的检查工作。强调了学习率和batch size的重要性，以及正则化、dropout和批量归一化在防止过拟合中的作用。推荐使用可视化工具监控训练过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（续我的上一篇博客）最早训练神经网络的时候完全什么技巧都不懂，能成功运行开源代码，并且看到loss下降就放心跑着了。随着对网络越来越多的接触，发现从数据集（train/val/test）的准备到训练超参数（例如args或者config文件）的设置都逐渐会根据经验去进行设计了。从来没有细细梳理过每一个训练小trick和其背后的依据，因此以边梳理边学习的态度，根据个人和网站上大家的总结对深度网络的训练进行了整理。

数据集的准备

本部分内容参见我的上一篇博客链接：深度网络的训练经验总结(数据篇)

超参数及其他网络设置

介绍一个入门级的网站：PlayGround是一个在线演示、实验的神经网络平台，是一个入门神经网络非常直观的网站。这个图形化平台非常强大，将神经网络的训练过程直接可视化。同时也能让我们对Tensorflow有一个感性的认识。链接：http://playground.tensorflow.org

1. batch size

batch size，即批量大小，是单次训练选择的样本数量。GD -> SGD -> mini-batch SGD，逐步在训练中引入了batch size，这个参数的好处是（1）解决了将数据一次性输入网络引起的内存爆炸；（2）在一个epoch里多次更新权重，加速了收敛；（3）可以跳出局部最优。但是设置batch size时仍要考虑空间和时间的限制，batch size对训练的影响具体表现在：过小，则会导致梯度变化较大，loss震荡，网络不易收敛；过大，则梯度已经非常准确，loss震荡较小，容易陷入局部最优。论文《Revisiting Small Batch Training for Deep Neural Networks》中表明，最好的训练结果都是在batch size处于2~32之间，一般都是2的幂次（如4，8，16）。综上所述，在一定范围内调大batch size，可以提高内存利用率和训练速度，虽然一个epoch时间变少，但是迭代更新权重次数少了，需要增大epoch来达到更高的精度，二者可以找到一个平衡。

1 epoch = 完成一次全部样本的训练 = 训练集样本数 / batch_size
1 iteration = 完成一次batch size大小的样本的训练 = 一次前向传播 + 一次反向传播
另，在一篇博客中有如下trick：当模型训练到尾声，想更精细化地提高成绩（比如论文实验/比赛到最后），有一个有用的trick，就是设置batch size为1，即做纯SGD，慢慢把error磨低。

2. learning rate

learning rate，即学习率，简单来讲就是模型在利用反向传播的误差更新权重时学习的速率 $\alpha$ ， $\theta_j = \theta_j - \alpha \frac{\Delta J(\theta)}{\Delta \theta_j}$ 。这个参数在训练神经网络时至关重要，它通过控制权重更新的幅度来决定训练的速度和精度，合适的学习率能够使目标函数在合适的时间内收敛到局部最优值。lr对训练的影响如下：过小，可以确保不会错过任何局部极小值，也意味着要花费更长的时间来进行收敛；过大，梯度会在极小值附近来回震荡，可能无法收敛或者loss爆炸。

从上图可以看出，如果在整个训练过程中不调整学习率的话，则不能适应训练的各个阶段。所以，学习率的设置一般是采用一种退火的方式，先从一个比较高的学习速率开始，然后慢慢地在训练中降低学习速率。初始学习率通常设置在0.01~0.001，如果是迁移学习，那么学习率会在 $10^{-4}$ 之下。然而，在网络开始训练的时候，给它的初始化权重一般都是随机赋值的，权重更新的梯度很大，如果用一开始就用很大的学习率（也会跟batch size有一定关系），很可能造成训练中数值不稳定。所以，这里有一个trick是进行学习率的预热，最开始训练的时候用比较小的学习率，然后训练过程稳定之后切回到最初的初始学习率。这个预热过程让我想到了在训练网络之前找到最佳学习率的过程，网上有一种方法是利用pytorch的fastai包，通过每一次迭代提高学习率（线性或指数）来找到loss从下降到上升的转折点，如下图所示，然而这种方式我从来没有使用过。