Resnet-18-训练实验-warm up操作

最新推荐文章于 2025-06-20 16:58:23 发布

TensorSense

最新推荐文章于 2025-06-20 16:58:23 发布

阅读量2.8w

点赞数 10

CC 4.0 BY-SA版权

分类专栏： deep-learning 文章标签： Resnet Resnet-18

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u011995719/article/details/77884728

deep-learning 专栏收录该内容

35 篇文章

订阅专栏

本文探讨了使用ResNet-18模型在cat-dog二分类任务中的过拟合问题。针对训练集准确率高而验证集准确率低的现象，通过引入warmup学习率策略有效降低了验证集损失，并提高了模型泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实验数据：cat-dog 二分类，训练集：19871 验证集：3975
实验模型：resnet-18
batchsize：128*2 （一个K80吃128张图片）

存在的问题：对训练集 accuracy可达0.99 loss=1e-2 -3，然而验证集 accuracy 0.5，loss 很高，试了多个初始学习率（0.1 — 0.0001）都不行

解决上述问题：采取warm up方法，对上述问题有点帮助

训练resnet，由于不finetune，很容易过拟合，paper《Deep Residual Learning for Image Recognition》中对cifar10的实验用了一个trick是 warm up（热身），就是先采用小的学习率（0.01）进行训练，训练了400iterations之后将学习率调整至0.1开始正式训练。

一开始不以为然，我分别用了四个初始学习率 lr=0.1; 0.01; 0.001; 0.0001; 然后每1000个iterations就降低一次lr。然而这四种初始学习率都试过之后，发现，验证集的accuracy怎么都上不去，都是0.5~0.6之间，而训练集的可以到0.99。而resnet采用了batch normalization,在caffe中，batch normalization 就有一个“坑”，就是use_global_stats 的设置问题。training时候是关闭，testing的时候是要打开，deploy也是要打开的。
对于训练集accuracy达0.99，验证集accuracy是0.5+的情况，我以为是batch normalization出问题，于是乎各种捣鼓BN去了，最后试了一下warm up，网络在验证集的loss才有所下降。

来看看warm up 的loss，分别采用 0.01 0.001 0.001 0.0001，gamma=10 ；stepsize在图中已经隔断
lr=0.01；step=1000

lr=0.001；step=500

lr=0.001；step=10000

lr=0.001；step=1000

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。