SGD算法 随机梯度下降算法
优化算法的根本在于 w +=△w,每一种优化算法的区别在于△w的计算。
SGD算法的公式为:
其中η为学习率,J’(w) 是损失关于参数的梯度.

momentum算法(动量)
该算法的迭代方法:△xt= -ηgt + ρ△xt-1


相对于原来的SGD,该算法加入了动量这个因素。
AdaGrad算法

RMSProp算法
更新公式:
gt是梯度β2是衰减参数
RMSProp学习优化算法和AdaGrad算法的区别在于衰减参数
Adam学习优化算法 是将RMSProp算法和momentum算法结合


3668

被折叠的 条评论
为什么被折叠?



