一、常用的网络模型训练技巧?
使用更大的 batch size。使用更大的 batch size 可以加快训练的进度。但是对于凸优化问题,收敛速度会随着 batch size 的增加而降低。所以在相同的 epoch 下,使用更大的 batch size 可能会导致验证集的 acc更低。所以可以使用以下技巧来解决问题。
(1) linear scaling learning rate。使用更大的学习率,例如,当我们选择初始学习率为 0.1, batch size 为 256,当将 batch size 增大至 b 时,需要将初始学习率增加至 0.1 * b / 256
(2) learning rate warm up。选择前 n\mathrm{n}n 个 epoch 进行 warm up, 在这 n\mathrm{n}n 个 epoch 中线性地增加学习率至初始学习率, 在正常地进行 decay。
(3) zero γ\gammaγ 。在 residual block 中的 BN\mathrm{BN}BN 中, 首先进行标准化输入 x\mathrm{x}x, 得 到 x^\hat{x}x^

文章探讨了网络模型训练中的一些关键技巧,如调整batchsize、学习率策略和正则化方法。同时,解释了过拟合的概念及其危害,提供了解决过拟合的策略,如交叉验证、数据增强和正则化技术。此外,还提到了模型不收敛的原因及相应的解决办法,如归一化和选择合适的学习率。
最低0.47元/天 解锁文章
3485

被折叠的 条评论
为什么被折叠?



