改善深层神经网络:超参数调试,正则化以及优化

本文介绍了深度学习中优化算法的重要性,重点讲解了Mini-batch梯度下降及其优缺点,强调了适中的Mini-batch大小对于优化效果的影响。此外,还探讨了指数加权平均数在计算上的优势以及偏差修正的必要性,并详细解释了动量梯度下降法如何加速学习过程,最后给出了一个使用SGD优化器的例子。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第二周优化算法
2.1 Mini-batch 梯度下降

(1)将训练集分割成小的子集训练,称为Mini-batch(batch 梯度下降就是梯度下降),不用等整个训练集遍历完就可以展开后续的工作。

2.2 理解mini-batch 梯度下降

(1)每次迭代走向朝下但可能会有更多的噪声。
(2) mini-batch大小为N,即batch 梯度下降,单次迭代耗时太长(和mini-batch梯度下降的总耗时相比?)
(3)mini-batch大小为1,即随机梯度下降法,失去了向量化的优势,大部分时间朝着最小值靠近,也可能远离最小值,平均时间来看他接近最小值,但永远不会收敛,在最小值附近波动,但不会停留在最小值。
(分母为1,值会不断变动)
(4)实际上位于中间位置的mini-batch大小效果最好。

2.3 指数加权平均数

v t = β v t − 1 + ( 1 − β ) θ t v_{t}=\beta v_{t-1}+(1-\beta)\theta_{t} vt=βvt1+1β)θt
计算时可视 v t v_{t} vt大概是 1 1 − β \frac{1}{1-\beta} 1β1
β \beta β较大时给前一天的权重较大,曲线更加平缓。

2.4 理解指数加权平均数

在机器学习中,数据规模比较大,计算平均数的计算量和内存空间消耗大,使用加权平均数,虽然不是最精准的计算平均数的方法,但是只用了一行代码,只占用了单行数字的存储和内存,从计算和内存上来说这是一个优势。
当一个数分配的权值下降到峰值的 1 e \frac{1}{e}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值