深度网络的训练经验总结(参数篇)

本文总结了深度网络训练中的关键参数,包括数据集准备、超参数设置(batch size、learning rate、optimizer、activation、参数初始化)、防止过拟合的策略以及训练前的检查工作。强调了学习率和batch size的重要性,以及正则化、dropout和批量归一化在防止过拟合中的作用。推荐使用可视化工具监控训练过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  (续我的上一篇博客)最早训练神经网络的时候完全什么技巧都不懂,能成功运行开源代码,并且看到loss下降就放心跑着了。随着对网络越来越多的接触,发现从数据集(train/val/test)的准备到训练超参数(例如args或者config文件)的设置都逐渐会根据经验去进行设计了。从来没有细细梳理过每一个训练小trick和其背后的依据,因此以边梳理边学习的态度,根据个人和网站上大家的总结对深度网络的训练进行了整理。

数据集的准备

本部分内容参见我的上一篇博客链接:深度网络的训练经验总结(数据篇)

超参数及其他网络设置

介绍一个入门级的网站:PlayGround是一个在线演示、实验的神经网络平台,是一个入门神经网络非常直观的网站。这个图形化平台非常强大,将神经网络的训练过程直接可视化。同时也能让我们对Tensorflow有一个感性的认识。链接:http://playground.tensorflow.org

1. batch size

  batch size,即批量大小,是单次训练选择的样本数量。GD -> SGD -> mini-batch SGD,逐步在训练中引入了batch size,这个参数的好处是(1)解决了将数据一次性输入网络引起的内存爆炸;(2)在一个epoch里多次更新权重,加速了收敛;(3)可以跳出局部最优。但是设置batch size时仍要考虑空间和时间的限制,batch size对训练的影响具体表现在:过小,则会导致梯度变化较大,loss震荡,网络不易收敛;过大,则梯度已经非常准确,loss震荡较小,容易陷入局部最优。论文《Revisiting Small Batch Training for Deep Neural Networks》中表明,最好的训练结果都是在batch size处于2~32之间,一般都是2的幂次(如4,8,16)。综上所述,在一定范围内调大batch size,可以提高内存利用率和训练速度,虽然一个epoch时间变少,但是迭代更新权重次数少了,需要增大epoch来达到更高的精度,二者可以找到一个平衡。

1 epoch = 完成一次全部样本的训练 = 训练集样本数 / batch_size
1 iteration = 完成一次batch size大小的样本的训练 = 一次前向传播 + 一次反向传播
另,在一篇博客中有如下trick:当模型训练到尾声,想更精细化地提高成绩(比如论文实验/比赛到最后),有一个有用的trick,就是设置batch size为1,即做纯SGD,慢慢把error磨低。

2. learning rate

  learning rate,即学习率,简单来讲就是模型在利用反向传播的误差更新权重时学习的速率 α \alpha α θ j = θ j − α Δ J ( θ ) Δ θ j \theta_j = \theta_j - \alpha \frac{\Delta J(\theta)}{\Delta \theta_j} θj=θjαΔθjΔJ(θ) 。这个参数在训练神经网络时至关重要,它通过控制权重更新的幅度来决定训练的速度和精度,合适的学习率能够使目标函数在合适的时间内收敛到局部最优值。lr对训练的影响如下:过小,可以确保不会错过任何局部极小值,也意味着要花费更长的时间来进行收敛;过大,梯度会在极小值附近来回震荡,可能无法收敛或者loss爆炸。

  从上图可以看出,如果在整个训练过程中不调整学习率的话,则不能适应训练的各个阶段。所以,学习率的设置一般是采用一种退火的方式,先从一个比较高的学习速率开始,然后慢慢地在训练中降低学习速率。初始学习率通常设置在0.01~0.001,如果是迁移学习,那么学习率会在 1 0 − 4 10^{-4} 104之下。然而,在网络开始训练的时候,给它的初始化权重一般都是随机赋值的,权重更新的梯度很大,如果用一开始就用很大的学习率(也会跟batch size有一定关系),很可能造成训练中数值不稳定。所以,这里有一个trick是进行学习率的预热,最开始训练的时候用比较小的学习率,然后训练过程稳定之后切回到最初的初始学习率。这个预热过程让我想到了在训练网络之前找到最佳学习率的过程,网上有一种方法是利用pytorch的fastai包,通过每一次迭代提高学习率(线性或指数)来找到loss从下降到上升的转折点,如下图所示,然而这种方式我从来没有使用过。

常用的学习率的退火方式有:

  • 轮数衰减(step decay):随着每N次迭代,学习率下降一定的百分比。
  • 指数衰减(exponential decay):学习率按训练轮数增长指数差值递减, l r = α d e c a y g l o b a l _ s t e p s d e c a y _ s t e p s ∗ l r 0 lr = \alpha_{decay}^{\frac{global\_steps}{decay\_steps}}*lr_0 lr=αdecaydecay_stepsglobal_stepslr
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值