优化器与学习率调整策略
1. 误差曲线与优化目标
我们可以将误差曲线进行平滑处理。对于特定的随机数据集,当分割点位置在 0 或 0 稍偏左时,误差为 0。这意味着无论从何处开始,我们的目标都是让分割点最终位于 0 的左侧。我们的核心目标是找到一种方法来定位任意误差曲线的最小值,一旦实现这一点,就可以将该技术应用于神经网络的所有权重,从而降低整个网络的误差。
2. 学习率的影响
2.1 学习率概述
在使用梯度下降法训练系统时,学习率是关键参数,通常用小写希腊字母 η(eta)表示,其取值范围一般在 0.01 到 0.0001 之间。较大的学习率会使学习速度加快,但可能会跳过山谷,错过最小值;较小的学习率会使学习速度变慢,能找到较窄的山谷,但可能会陷入平缓的山谷,错过更深的山谷。
2.2 学习率对梯度下降的影响
| 学习率情况 | 影响 |
|---|---|
| η 过大 | 可能会直接跳过深谷,错过最小值,如在某些情况下,大的学习率会使算法从一个山谷跳到另一个具有更大最小值的山谷。 |
| η 过小 | 可能会缓慢陷入局部最小值,错过更深的山谷,导致算法在局部区域徘徊,难以找到全局最优解。 |
2.3 学习率调整的类比
许多优化器的一个重要思想是在学习过程中改变学习率。这类似于
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



