Early Stopping | but when?

最新推荐文章于 2025-04-11 09:29:15 发布

qq_32110859

最新推荐文章于 2025-04-11 09:29:15 发布

阅读量932

点赞数

分类专栏：深度学习模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_32110859/article/details/86673609

版权

早停策略是防止过拟合的一种有效手段，通常基于验证集误差进行决策。然而，实际操作中，训练停止往往依赖于非系统的判断或者交互方式。文章讨论了验证集误差曲线的复杂性，提出了一系列停止标准，如超过阈值、验证损失与进度的比值、连续strip的增高等。研究表明，较晚停止的策略可能获得更好的泛化能力，但所需训练时间更长。选择停止策略时，需平衡效率、效果和鲁棒性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://page.mi.fu-berlin.de/prechelt/Biblio/stop_tricks1997.pdf

摘要
1. early stop应该是validation-based，但实际中，总是基于an ad-hoc fashion或是training is stopped interactively
  1. 基于临时的策略或是交互的方式停止训练，交互的方式个人理解就是工程师观察loss等指标变化，人为的决定训练是否停止
2. validation-based early stop
3. 文章提出了a systematic fashion的标准
4. 训练时间和泛化能力之间的trade-off
early stop 不简单
1. 为什么early stop
  2. 两个方法防止过拟合：
    1. 减少参数空间维度
      1. greedy constructive learning 不知道什么意思
      2. pruning 剪枝
      3. weight sharing 参数共享
    2. 减少每一维的有效size
      1. regularization 归一化
        
        weight decay
        
        early stop，reported 比归一化方法要好
2. basic
3. The uglyness of reality
  1. 实际中的验证集error变化曲线不是平滑的，可能是先上升后下降的，并且局部最小值也不止一个，figure2中的变化曲线就有16个局部最小点
  2. 400个epoch以后结束训练（过拟合开始显现）和45个epoch以后结束训练（到达第一个局部最小值）相比，训练时间长了7倍，但是验证集的error只下降了1.1%。1.1%还是在验证集数据是相当具有代表性的情况下。
  3. 所有validation error曲线的变化都不一样，唯一有共性的是第一个局部最优点和全局最优点的差值不大。
    1. Unfortunately, the above or any other validation error curve is not typical in the sense that all curves share the same qualitative behavior. Other curves might never reach a better minimum than the first, or than, say, the third; the mou

最低0.47元/天解锁文章

博客等级

码龄10年

34
原创

8
点赞

13
收藏

3
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: docker学习

下一篇：: tf.train.ExponentialMovingAverage

最新评论

opencv读入图像自动旋转的问题
qq_32110859 回复 Hellow_RMB: 您好，我这边没有的。
opencv读入图像自动旋转的问题
Hellow_RMB: 博主，您好，你有类似于链接的C++代码嘛？
tf.image.resize_bilinear vs cv2.resize
qq_32110859 回复 asd5768878: 这样是一个思路，我认为只要在训练数据，验证数据，以及最后做inference时，用的是一样的处理方法就可以了。我们强制采用opencv是因为做inference时，用tf.image处理图片耗时长，需要ja用va在pb文件以外做，以减少耗时。
tf.image.resize_bilinear vs cv2.resize
asd5768878 回复 qq_32110859: 没事，起码知道解决方向了。我目前的处理方式，是把训练时对数据的处理方式应用到要测试的图片上，即对测试图片应用tf.image.resize_image()这个函数，不过需要额外多跑一个sess，大概多花费0.2秒。
tf.image.resize_bilinear vs cv2.resize
qq_32110859 回复 asd5768878: 用opencv实现了相应的数据处理功能，然后用tf.py_func()调用了相应的函数。我这边测试下来，opencv和tf.image耗时是差不多的。本来想把代码粘给你，但始终弄不对，不好意思~

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。