梯度下降更新算法

本文深入解析梯度下降算法,探讨其在机器学习中的应用。强调了梯度更新的同步性,学习率对收敛速度的影响,以及如何通过特征缩放提高算法效率。同时,介绍了批处理和小批量梯度下降的区别,提供了选择合适学习率的建议。

 梯度更新是要同时更新,如下图所示:θ0和θ1同时更新,而不是更新完一个后再更新另一个。

 

 

 

学习率α过小,梯度下降较慢,训练时间增长。若学习率α过大,梯度下降会越过最低点,难以得到最优的结果,导致难以收敛或发散。

 

如果参数值已是局部最优,进行梯度下降计算时导数是0,梯度下降不会作任何操作,参数不改变

 

 

在梯度下过程中无需修改学习率,因为在接近局部最有点时导数项会变小,梯度下降的步幅也会随之比变小。

 

梯度下降中batch:指计算一次梯度下降就使用全部的训练集数据

mini batch :指计算一次梯度下降时使用了一小部分训练集数据

多元特征的梯度下降时,进行特征缩放,可将梯度下降的速度提高,通常将特征的取值缩放至大约-1到1之间

 

 使用小的学习率,一般0.001,0.003,0.01,0.03,0.1,0.3,1等

 

转载于:https://www.cnblogs.com/abella/p/10320687.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值