不同梯度下降优化方法分析

goodmorning!

于 2019-10-30 19:25:10 发布

阅读量211

点赞数

分类专栏：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/bolun365/article/details/102825472

版权

人工智能专栏收录该内容

19 篇文章

订阅专栏

随机梯度下降

1.局部梯度的反方向不一定是函数整体下降的方向(比如隧道型曲面)

2.手动设定的学习率衰减很难根据数据自适应

3.数据有一定的稀疏性时, 希望对不同特征采取不同的学习率

4.神经网络训练中梯度下降法容易困在鞍点附近

似牛顿法

1.在求目标函数的二阶导数(Hessian Matrix)时, 计算复杂.

2.小批量时, 很容易受噪音影响.

3.由于似合的是二次曲面, 比随机梯度更容易困在鞍点. 还容易困在极大值点.

动量法

解决问题

局部梯度的反方向不一定是函数整体下降的方向(比如隧道型曲面)

存在问题

1.最初版的动量算法: 用梯度修改速度, 用速度更新参数. 问题为在最低点往反返运动.

2.改进版的动量算法: 通过当前的速度找到下一点, 用下一点的梯度来更新速度而不是当前的梯度来更新速度, 用速度更新参数.

Adagrad

解决问题

1.随着模型的训练, 学习率自动衰减.

2.对于更新频次不同的参数, 会采用不同的学习率.

算法

对某参数更新时, 学习率变为学习率除以根号G(加小数防止除0错), G为这个参数曾经更新使用过的所有梯度的平方和.

存在问题

学习率下降过快

数学公式

RMSprop

在Adagrad基础上改进版Adadelta使用移动平均来代替G, 避免学习率下降过快的问题.

Adadelta

不再需要传入学习率做为超参数, 可自适应增大和缩小学习率.

Adam

开始的时候采用无偏估计

选用哪种优化方法

数据震荡厉害, 动量法

文本数据, 数据有稀疏维度, RMSprop, Adadelta, Adam

不了解数据, Adam

优化方法评估指标

收敛速度训练稳定性

其它优化方法:

1.每次epoch大洗牌一次数据

2.批规范化

3.early stopping

4.Gradient Noise

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。