梯度下降原理+梯度消失和爆炸

梯度下降算法(Gradient Descent)的原理和实现步骤 - 知乎 (zhihu.com)

梯度(gradient)到底是个什么东西?物理意义和数学意义分别是什么? - 知乎 (zhihu.com)

目的:最小化损失函数,一个优化的思想

梯度:切点的方向,沿着切线方向前进是最快的(函数值变化最大)

梯度下降:沿着梯度的反方向走

学习率(步长):人为设定,控制梯度下降的步长(初始常见值为0.001、 0.01,结果不好由大到小进行调整,一开始是快速找到收敛方向,后面细致优化防止震荡)

损失函数:当损失函数有多个参数时,要分别优化

批量梯度下降(GD):

在每次对模型参数进行更新时,需要遍历所有的训练数据

计算过程:要计算所有样本的损失函数梯度,求平均值来更新参数

参数更新:

随机梯度下降(SGD):

会受离散点、噪音点的影响

小批量梯度下降(mini-batch GD): 

batch表示一次迭代的样本数量,一般取2的幂次时能充分利用矩阵运算操作,常设置为64 128 256,在显卡等允许的前提下越大越好。为了避免数据的特定顺序给算法收敛带来的影响,一般会在每次遍历训练数据之前,先对所有的数据进行随机排序,然后在每次迭代时按顺序挑选m个训练数据直至遍历完所有的数据。

过程:

梯度消失和爆炸:

梯度消失和梯度爆炸及解决方法 - 知乎 (zhihu.com)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值