优化器:学习率调整与梯度下降策略
1. 误差曲线与学习目标
在处理随机数据时,我们可以对误差曲线进行平滑处理。对于特定的随机数据集,当分割点位置在 0 或 0 稍微偏左时,误差为 0。这意味着无论从何处开始,我们的目标是让分割点最终位于 0 的左侧。我们的核心目标是找到一种方法来定位任意误差曲线的最小值。一旦实现这一点,就可以将该技术应用于神经网络的所有权重,从而降低整个网络的误差。
2. 学习率的影响
2.1 学习率的基本概念
在使用梯度下降法训练系统时,学习率是一个关键参数,通常用小写希腊字母 η(eta)表示,常见取值范围在 0.01 到 0.0001 之间。较大的学习率会使学习速度加快,但可能会跳过误差曲线的低谷;较小的学习率(接近 0 但始终为正)会使学习速度变慢,不过能找到较窄的低谷,但也可能陷入平缓的低谷,而错过附近更深的低谷。
2.2 学习率对学习过程的影响
| 学习率情况 | 影响 |
|---|---|
| η 过大 | 可能直接跳过深谷,错过最小值,如图 15 - 4(a)所示。 |
| η 过小 | 可能缓慢陷入局部最小值,错过更深的山谷,如图 15 - 4(b)所示。 |
2.3 学习率调整的思路
许多优化器的一个重要思想是在学习过程中改变学习率。这类
超级会员免费看
订阅专栏 解锁全文
6721

被折叠的 条评论
为什么被折叠?



