1.31.动量与学习率衰减
1.31.1.动量
1.31.2.学习率衰减
1.31.动量与学习率衰减
1.31.1.动量



(1)没有引入动量

(2)引入动量后

从图中可以看到,引入动量后loss函数更新的幅度减小,同时找到了全局最优解
(3)两种情况对比

(4)引入动量代码

1.31.2.学习率衰减
(1)三种情况下学习率对训练的影响

学习率过小,会使得收敛太慢,但是却可以收敛到极小值点
学习率过大,会使得目标函数甚至越来越大,或者始终在极小值点旁边徘徊,无法收敛到极小值点。但是前面收敛很快。
结合这两点我们引入了动态学习率:
(2)动态学习率

在前期可以设置稍微大一点的学习率如0.1, 再经过一定时间后学习率不断下降, 这样既保持了下降速度,同时又保证可以收敛到极小值点。

从图中可以看出,红色曲线在突变点出学习率下降成原来的一半后,loss显著降低。
(3)代码实现
实现方法一:
CLASS torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08, verbose=False)


scheduler = StepLR(optimizer, step_size=30, gamma=0.1)
for epoch in range(100):
scheduler.step()
train(...)
validate(...)
本文探讨了动量和学习率衰减在深度学习优化过程中的作用。动量通过平滑梯度更新,帮助模型更快地收敛到全局最优解,而学习率衰减则解决了学习率过大或过小导致的收敛问题。动态调整学习率,如使用ReduceLROnPlateau调度器,可以在训练初期保持快速下降,后期逐渐减小学习率以精细调整。这两种策略结合使用,能有效提升模型训练效果。
2802

被折叠的 条评论
为什么被折叠?



