为什么SGD的学习率设置要比Adam的更大？

最新推荐文章于 2025-06-03 14:17:31 发布

原创最新推荐文章于 2025-06-03 14:17:31 发布 · 655 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#学习 #深度学习 #机器学习

在优化神经网络时，SGD（随机梯度下降）通常需要设置比 Adam 优化器更大的学习率，这是由于这两种优化方法在处理梯度更新时的机制差异所决定的：

1. 梯度更新机制的差异

SGD：
SGD在每次更新中直接使用梯度值乘以学习率更新参数，没有对梯度进行额外的修正或归一化。如果学习率设置过小，更新速度会很慢；如果设置过大，可能导致优化过程不稳定（如震荡或发散）。因此，为了确保在合理时间内收敛，通常需要较大的学习率。
Adam：
Adam是一种自适应优化算法，它对每个参数的学习率进行了动态调整。Adam通过计算梯度的一阶动量（均值）和二阶动量（方差）来对梯度进行归一化。这样的归一化过程使得每次更新更加平稳，即使学习率较小，Adam仍然能够有效地调整步长。因此，Adam通常需要的学习率比SGD小。

2. 适应性学习率的优势

Adam的动态调整机制能够适应不同梯度的变化范围：

当梯度较大时，Adam会缩小步长，防止更新过快。
当梯度较小时，Adam会放大步长，避免陷入局部最优或停滞。

SGD则没有这样的调整能力，因此为了弥补这一缺陷，需要更大的学习率来保持足够的更新幅度。

3. 实际效果的考量

SGD对学习率的选择更加敏感。学习率太小可能导致训练速度极慢，学习率太大会引起发散。因此在实践中，通常选择较大的学习率（例如 0.01 或 0.1），并结合学习率衰减等策略。
Adam通常以一个较小的学习率开始（例如 0.001 或 0.0001），因为其自适应的特性已经能够很好地平衡不同梯度的变化。

4. 结论

SGD的学习率需要更大，是因为其更新机制单纯依赖固定的全局学习率，对梯度大小缺乏动态调整。
Adam通过自适应学习率的调整机制，即使设置较小的初始学习率，也能保持有效的更新速度和稳定性。

这两种优化器在不同的任务中各有优劣，选择合适的学习率是调优过程的重要部分。

博客等级

码龄9年

1960
原创

2万+
点赞

1万+
收藏

6122
粉丝

关注

私信

热门文章

分类专栏

python 1689篇
SQL 68篇
ubuntu 44篇
JavaScript 21篇
C语言 76篇
pytorch 11篇
计算机综合 14篇

展开全部收起

上一篇：: python-LeetCode-两数之和

下一篇：: 用C语言实现八皇后问题

最新评论

MMDetection 设置某个模块下的所有权重都是不需要梯度怎么设置？
Joyner2018: 这是多卡训练下报的错误。首先采用单卡则不会报错；其次，多卡下运行，你的网络中有一些多余网络层初始化了，但是训练的时候，loss回传的时候，没有使用到它。mmdetection更新网络的时候，就不知道如何更新这部分网络层权重。这个错误信息也给了提示了，你在配置文件中加上find_unused_parameters=True，可以暂时解决这个问题。或者你自己再查看还具体是哪个部分的网络没有参与到loss回传，然后把它去掉。
MMDetection 设置某个模块下的所有权重都是不需要梯度怎么设置？
tangerine_u: 我一旦冻结了参数就会遇到这样的错误，是哪里出错了呀 RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one. This error indicates that your module has parameters that were not used in producing loss. You can enable unused parameter detection by passing the keyword argument find_unused_parameters=True to torch.nn.parallel.DistributedDataParallel, and by making sure all forward function outputs participate in calculating loss. If you already have done the above, then the distributed data parallel module wasn't able to locate the output tensors in the return value of your module's forward function. Please include the loss function and the structure of the return value of forward of your module when reporting this issue (e.g. list, dict, iterable). Parameter indices which did not receive grad for rank 0: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
python-leetcode-解决智力问题
Ttcoffee_2048: 看你观看太少了，关注你一下吧
python 如何传入参数？
阿J~: 这个太秀了，支持博主
YOLOv8配置文件应该如何命名？
weixin_50254443: hao

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。