神经网络训练中的早停与权重衰减参数估计
1. 早停准则的量化与泛化
在神经网络训练中,早停是一种常用的避免过拟合的方法。通过观察表格中不同列的数据,可以量化选择早停准则时涉及的权衡。例如,从列 SGL2(C) 和 BGL2(C) 来看,在考察的准则范围内,大约可以用测试误差 4% 的下降(从 1.024 到 0.988)换取训练时间约四倍的增加(从 0.766 到 3.095)。不过,在此范围内,虽然有些准则比其他的稍好,但并没有一种万能的准则。
关于这些结果的泛化性,推测早停准则的行为在以下情况下具有相似性:
- 对于其他学习规则,除非它们在参数空间中经常采取极端步骤。
- 对于其他误差函数,除非它们是不连续的。
- 对于其他学习任务,只要它们在非线性程度、输入输出数量和可用训练数据量方面处于同一水平。
但至少在学习任务方面会出现偏差,还需要更多研究来描述学习任务的哪些属性会导致早停准则行为的哪些差异。
早停准则的量化权衡可以用表格表示如下:
| 指标 | 变化前 | 变化后 |
| — | — | — |
| 测试误差 | 1.024 | 0.988 |
| 训练时间 | 0.766 | 3.095 |
2. 早停的原理分析
目前,对于像在适量样本上训练的 S 型多层感知器等有趣情况,还无法对误差曲线进行详细的理论分析,现有的分析通常仅适用于受限场景,且一般不以找到最优早停准则为目标。不过,通过对相关分析的简化或基于误差的偏差/方差分解的另一种观点,可以了解早停的工作原理。
在训练开始阶段(阶段 I),误差主要由近似误差主导
超级会员免费看
订阅专栏 解锁全文
5007

被折叠的 条评论
为什么被折叠?



