基础优化算法

本文探讨了在没有显式解的情况下如何选择梯度下降的学习率,强调了学习率不宜过大或过小的影响。接着介绍了小批量随机梯度下降,分析了批量大小选取的平衡点,指出批量太小可能导致计算效率低下,而太大则会增加内存消耗。总结了在实际优化过程中如何权衡这两者以实现更高效的训练过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、梯度下降 (当模型没有显示解时)

选择学习率时,不能太小(每次走的步长有限,需要走很多步骤),也不能太大

二、小批量随机梯度下降

选择批量大小时,不能太大,也不能太小:

1.太小:每次计算量太小,不适合并行来最大利用计算资源

2.太大:内存消耗增加,浪费计算

三、总结

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值