8、深度学习优化方法与应用的最佳途径

深度学习优化方法与应用的最佳途径

1. 高级优化方法概述

在深度学习中,有三个重要的值:
- W:权重矩阵
- lr:学习率
- dW:W的梯度

固定学习率在足够小时,能使训练过程中的损失下降。我们还了解到随机梯度下降(SGD)的扩展,如引入动量和Nesterov加速。接下来,我们将探索常见的自适应学习率优化器。

2. 自适应学习率方法
2.1 Adagrad

Adagrad是一种自适应学习率方法,它能根据网络参数调整学习率。对于不常更新的参数进行较大更新,而对频繁更新的参数进行较小更新。其更新的伪代码如下:

cache += (dW ** 2)
W += -lr * dW / (np.sqrt(cache) + eps)

其中,cache维护每个参数的梯度平方和,在每个小批量训练时更新。通过检查cache,可了解哪些参数更新频繁,哪些更新不频繁。Adagrad的主要优点是无需手动调整学习率,大多数实现将初始学习率设为0.01,让算法自适应调整。然而,其缺点在于cache中的梯度平方和不断累积,导致后期更新极小,网络难以学习,因此现代深度学习中很少使用。

2.2 Adadelta

Adadelta由Zeiler在2012年提出,可视为Adagrad的扩展,旨在减少cache导致的学习率单调递减问题。它只累积少量过去的梯度,实际实现时是计算所有过去梯度平方的衰减平均值。不过,与之密切相关的RMSprop算法更受青睐。

2.3 RMSprop</
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值