梯度下降法是基于泰勒展开式的,为了保证每一步优化都在领域内,设置了很小的学习率,但固定的学习率产生的问题是很难收敛到最优点,于是出现了一些改进的方法。
1. 动量项梯度下降法Momentum
积累了以前的梯度信息,但是如果如果简单的累积,会导致动量越来越大,于是需要有一个衰减的过程。
其中为衰减因子,继续迭代发现
参数更新变为:
2. AdaGrad
通过前面迭代的历史梯度值动态调整学习率,且优化每个变量都有自己的学习率
其中为防止分母为0,随着迭代加深,分母越来越大,学习率则越小,但学习率还是需要初始化,且分母会逐渐趋向正无穷。
3. RMSProp
为了避免长期积累后,学习率趋向0,在累积梯度作为学习率下降方法中,添加了衰减因子。
4. AdaDelta
在RMSProp的基础上,去掉了对人工设置学习率的依赖。
其中是为了量纲正确
5.Adam
整合了自适应学习率和动量项。