https://page.mi.fu-berlin.de/prechelt/Biblio/stop_tricks1997.pdf
- 摘要
- early stop应该是validation-based,但实际中,总是基于an ad-hoc fashion或是training is stopped interactively
- 基于临时的策略或是交互的方式停止训练,交互的方式个人理解就是工程师观察loss等指标变化,人为的决定训练是否停止
- validation-based early stop
- 文章提出了a systematic fashion的标准
- 训练时间和泛化能力之间的trade-off
- early stop应该是validation-based,但实际中,总是基于an ad-hoc fashion或是training is stopped interactively
- early stop 不简单
- 为什么early stop
-
- 两个方法防止过拟合:
- 减少参数空间维度
- greedy constructive learning 不知道什么意思
- pruning 剪枝
- weight sharing 参数共享
- 减少每一维的有效size
- regularization 归一化
- weight decay
- early stop,reported 比归一化方法要好
- regularization 归一化
- 减少参数空间维度
-
- basic
- The uglyness of reality
- 实际中的验证集error变化曲线不是平滑的,可能是先上升后下降的,并且局部最小值也不止一个,figure2中的变化曲线就有16个局部最小点
- 400个epoch以后结束训练(过拟合开始显现)和45个epoch以后结束训练(到达第一个局部最小值)相比,训练时间长了7倍,但是验证集的error只下降了1.1%。1.1%还是在验证集数据是相当具有代表性的情况下。
- 所有validation error曲线的变化都不一样,唯一有共性的是第一个局部最优点和全局最优点的差值不大。
- Unfortunately, the above or any other validation error curve is not typical in the sense that all curves share the same qualitative behavior. Other curves might never reach a better minimum than the first, or than, say, the third; the mou
- 为什么early stop