34_pytorch,动量与lr衰减（momentum,learning rate）--学习笔记

最新推荐文章于 2023-04-28 16:01:59 发布

原创最新推荐文章于 2023-04-28 16:01:59 发布 · 784 阅读

0 ·

CC 4.0 BY-SA版权

Pytorch学习笔记专栏收录该内容

56 篇文章

订阅专栏

本文探讨了动量和学习率衰减在深度学习优化过程中的作用。动量通过平滑梯度更新，帮助模型更快地收敛到全局最优解，而学习率衰减则解决了学习率过大或过小导致的收敛问题。动态调整学习率，如使用ReduceLROnPlateau调度器，可以在训练初期保持快速下降，后期逐渐减小学习率以精细调整。这两种策略结合使用，能有效提升模型训练效果。

1.31.动量与学习率衰减
1.31.1.动量
1.31.2.学习率衰减

1.31.动量与学习率衰减

1.31.1.动量

在这里插入图片描述

（1）没有引入动量

（2）引入动量后

从图中可以看到，引入动量后loss函数更新的幅度减小，同时找到了全局最优解

（3）两种情况对比
在这里插入图片描述

（4）引入动量代码
在这里插入图片描述

1.31.2.学习率衰减

（1）三种情况下学习率对训练的影响
在这里插入图片描述

学习率过小，会使得收敛太慢，但是却可以收敛到极小值点
学习率过大，会使得目标函数甚至越来越大，或者始终在极小值点旁边徘徊，无法收敛到极小值点。但是前面收敛很快。
结合这两点我们引入了动态学习率：
（2）动态学习率
在这里插入图片描述
在前期可以设置稍微大一点的学习率如0.1, 再经过一定时间后学习率不断下降, 这样既保持了下降速度，同时又保证可以收敛到极小值点。

从图中可以看出，红色曲线在突变点出学习率下降成原来的一半后，loss显著降低。

(3)代码实现
实现方法一：

CLASS torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08, verbose=False)

在这里插入图片描述

scheduler = StepLR(optimizer, step_size=30, gamma=0.1)
for epoch in range(100):
    scheduler.step()
    train(...)
    validate(...)