梯度下降方法的优化改进

1,首先SGDM不会被类似于极小点的地方卡住而停止更新.因为SGDM与SGD最大的不同在于v值中包括了过去走过的所有梯度.在这里插入图片描述
在这里插入图片描述
如上图,该方法引入了momentum,最终的移动方向由梯度与monentum共同决定.而不单纯由梯度决定,从而使得更新不会停止.

2,本方法的主要作用是动态调整学习率,在过去梯度比较大的地方(说明该部分损失函数变化比较大),这时候就需要减小学习率,而在过去梯度比较小的地方,说明变化比较小,学习率可以放心前进,所以用大的学习率
在这里插入图片描述
3,在这里插入图片描adag述
这个算法与adagram算法的不同之处在于vt不会急剧增大,来平衡过去的梯度与现在梯度的关系.但是本算法解决不了在梯度小的地方会停止更新的问题.

4,在这里插入图片描述
SGDM方法改变梯度,rms方法改变学习率,这里对mt与vt都进行了处理,是因为不想让mt与vt变大速度太快.

5,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值