当我们使用BGD或mini-batch算法时,我们会发现梯度的下降如上图所示是来回起伏的,这样在计算到最小值时仍然需要一定的时间,现在想要消除减缓这个波动,就用到了动量梯度下降法。

一般β取0.9,这和我们之前提过的指数加权平均相同,用过去的平均值和现在的值共同决定。Vdw和Vdb相当于是速度,dw和db相当于是加速度
动量梯度下降法
于 2022-03-12 10:03:07 首次发布
动量梯度下降法通过引入历史梯度的加权平均,减少了梯度下降过程中的震荡,加快收敛速度。通常设置β为0.9,这里的Vdw和Vdb表示速度,dw和db则代表加速度,这种优化方法有助于在训练深度学习模型时更有效地寻找最小值。
2274

被折叠的 条评论
为什么被折叠?



