各种优化器

梯度下降:

  • SGD: 优点:速度快、效果好。缺点:因为随机,会陷入局部最优解。
  • BGD: 整个训练集的数据。
  • MBGD: 结合BGD和SGD的折中。

优化:从梯度和学习率入手。

动量(加速收敛,减小震荡):

普通动量:

每个指数加权平均后的梯度含有之前梯度的信息
m t + 1 = β m t + ( 1 − β ) ▽ θ J ( θ ) m_{t+1} = \beta m_t + (1-\beta)\bigtriangledown_{\theta}J(\theta) mt+1=βmt+(1β)θJ(θ)
其中 m 是动量, ▽ θ J ( θ ) 是梯度 m 是 动量,\bigtriangledown_{\theta}J(\theta)是梯度 m是动量,θJ(θ)是梯度, β 通常为 0.9 \beta 通常为0.9 β通常为0.9
在这里插入图片描述
在这里插入图片描述

NAG(Nesterov accelerated gradient)

在这里插入图片描述
m t + 1 = β m t + ( 1 − β ) ▽ θ J ( θ − β m t ) m_{t+1} = \beta m_t + (1-\beta)\bigtriangledown_{\theta}J(\theta - \beta m_t) mt+1=βmt+(1β)θJ(θβmt)

ps:网上有人说和二阶信息有关,没太明白。

学习率

自适应学习率优化算法:

  • AdaGrad:参考全部历史梯度,使学习率自适应的下降。缺点:学习率很快变成0。
    在这里插入图片描述
    G t , i i G_{t,ii} Gt,ii就是所有梯度的平方和。 g i i g_{ii} gii是当前的梯度

  • Adadelta:设置窗口W,1、 G G G改为对过去所有的梯度平方的指数加权平均。2、学习率调整为更新量的平方的加权平均。RMS是一个简写。
    在这里插入图片描述

  • RMSprop:

  • Adam:结合了动量和Ada。
    在这里插入图片描述
    偏差校正
    在这里插入图片描述
    最终的公式:
    在这里插入图片描述

  • Nadam:加上了Nesterov。
    在这里插入图片描述

  • AdamW:加上了weight decay。
    在这里插入图片描述

θ 1 , θ 2 , … , θ n \theta_1, \theta_2,\dots,\theta_n θ1,θ2,,θn指数加权平均:
v t = β v t − 1 + ( 1 − β ) θ t v_t = \beta v_{t-1}+(1-\beta)\theta_t vt=βvt1+(1β)θt
得: v 1 , v 2 , … , v n v_1,v_2,\dots,v_n v1,v2,,vn

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值