深度学习(二)

本文介绍了深度学习中的几种关键优化算法,包括mini-batch梯度下降、指数加权平均、带有动量项的梯度下降、RMSprop以及Adam算法,并讨论了如何选择合适的batch大小及学习率衰减策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

算法优化

mini-batch

将庞大的数据集分成许多个batch,遍历这些batch,每个batch使用梯度下降法进行优化
如果batch的数目太大,则每次迭代的时间太长,如果batch的数目为1,则退化为随机梯度下降法,这样就丧失了向量化的加速作用,因此,需要合理选择batch的数目,一般对于较大的数据集,选择为64或128到512,一般是2的整数次幂。

指数加权平均

vt=βvt1+(1β)θt v t = β v t − 1 + ( 1 − β ) θ t ,其大概平均了 11β 1 1 − β 的数据,其中 β β 的值常常取为0.9
当权值过大时,初始阶段可能偏差过大,这时可利用 vt1βt v t 1 − β t 来去掉偏差

momentum梯度下降法

此种方法的目的是消除随机梯度下降法的上下波动,当计算出dw、db等梯度后,使用 vdw,vdb v d w , v d b 来代替,使用这些值来更新各个参数

RMSprop算法

此种算法对momentum做了一定的修改,更新公式变为 Sdw=βSdw+(1β)(dw)2 S d w = β S d w + ( 1 − β ) ( d w ) 2 ,其权值更新公式变为: w=wαdwSdw w = w − α d w S d w ,为了防止权值更新公式中除以0,所以要在除的时候加一个很小的值 ε ε

Adam算法

结合了上述两种算法,最终权值更新公式变为: w=wαVdwSdw+ε w = w − α V d w S d w + ε ,其中momentum常用的超参数的值为0.9,RMSprop中常用的超参数的值为0.999,极小值常取的值为 108 10 − 8

学习率的衰减

α = 11+decay_rateepoch_numα0 α  =  1 1 + d e c a y _ r a t e ∗ e p o c h _ n u m α 0
除此之外,还有其他的许多衰减算法,例如:
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值