深度学习中常用的优化器一般有如下几种:
BGD(批量梯度下降法,Batch Gradient Descent):是最原始的形式,它是指在每一次迭代时使用所有样本来进行梯度的更新。
优点:由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。当目标函数为凸函数时,BGD一定能够得到全局最优。
缺点:当样本数目 mm 很大时,每迭代一步都需要对所有样本计算,训练过程会很慢。
SGD(随机梯度下降法,Stochastic Gradient Descent):原理和BGD类似,只不过每个迭代不是对全部的数据,而是随机抽取数据进行更新损失值。
优点:由于不是在全部训练数据上的损失函数,而是在每轮迭代中,随机优化某一条训练数据上的损失函数,这样每一轮参数的更新速度大大加快。
缺点:(1)准确度下降。由于即使在目标函数为强凸函数的情况下,SGD仍旧无法做到线性收敛。(2)可能会收敛到局部最优,由于单个样本并不能代表全体样本的趋势。
Momentum(动量优化法):动量优化方法是在梯度下降法的基础上进行的改变,具有加速梯度下降的作用。简单理解,就是为了防止波动,取前几次波动的平均值当做这次的权值W(记录之前几次更新的方向)。
优点:前后梯度方向一致时,能够加速学习,前后梯度方向不一致时,能够抑制震荡。
缺点:比较难学习

本文探讨了深度学习中常用的优化器,包括BGD、SGD、Momentum、AdaGrad、RMSProp和Adam。BGD使用所有样本更新,适合凸函数但计算慢;SGD通过随机抽样加速,可能收敛到局部最优;Momentum利用动量加速收敛,抑制震荡;AdaGrad和RMSProp解决学习率问题,但AdaGrad后期学习率过小;Adam综合Momentum和RMSProp,实现稳定且自适应的学习率。
最低0.47元/天 解锁文章
795

被折叠的 条评论
为什么被折叠?



