深度学习常用优化方法

最新推荐文章于 2025-05-19 11:40:20 发布

原创

最新推荐文章于 2025-05-19 11:40:20 发布 · 860 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

以下方法都是总结吴恩达深度学习课程的方法。

（1）梯度下降

batch-GD（size=m）：速度比较慢，但每一次都是最优方向；
随机梯度下降（size=1）：不能用向量加速，相对来说速度慢，而且最后只会在最优值附近徘徊；
mini-batch（size=16,32,64,128）：速度较快，虽然也会在最优值之间徘徊，但是可以调整学习率使得到达最优值；

（2）动量梯度下降（Momentum）

动量法实际是利用加权指数平均将过去的梯度考虑在内，从而使的更新过程更加平滑
算法实现：
Vdw和Vdb初始化为零，β常用的值是0.9（上一时刻的权重）。

在我们进行动量梯度下降算法的时候，由于使用了指数加权平均的方法。原来在纵轴方向上的上下波动，经过平均以后，接近于0，纵轴上的波动变得非常的小；但在横轴方向上，所有的微分都指向横轴方向，因此其平均值仍然很大。最终实现红色线所示的梯度下降曲线。

（3）RMS-prob

除了上面所说的Momentum梯度下降法，RMSprop（root mean square prop）也是一种可以加快梯度下降的算法。同样算法的样例实现如下图所示：
在这里插入图片描述这里假设参数b的梯度处于纵轴方向，参数w的梯度处于横轴方向（当然实际中是处于高维度的情况），利用RMSprop算法，可以减小某些维度梯度更新波动较大的情况(我们希望w方向，也就是水平方向快一点，b方向，也就是垂直方向慢一点)，如图中蓝色线所示，使其梯度下降的速度变得更快，如图绿色线所示。
在如图所示的实现中，R

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。