基础优化算法

原创于 2022-05-08 10:57:12 发布 · 275 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文探讨了在没有显式解的情况下如何选择梯度下降的学习率，强调了学习率不宜过大或过小的影响。接着介绍了小批量随机梯度下降，分析了批量大小选取的平衡点，指出批量太小可能导致计算效率低下，而太大则会增加内存消耗。总结了在实际优化过程中如何权衡这两者以实现更高效的训练过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、梯度下降（当模型没有显示解时）

选择学习率时，不能太小（每次走的步长有限，需要走很多步骤），也不能太大

二、小批量随机梯度下降

选择批量大小时，不能太大，也不能太小：

1.太小：每次计算量太小，不适合并行来最大利用计算资源

2.太大：内存消耗增加，浪费计算

三、总结

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。