模型不收敛

最新推荐文章于 2025-08-25 10:11:41 发布

转载最新推荐文章于 2025-08-25 10:11:41 发布 · 5.4k 阅读

19 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/comway_li/article/details/81878400

很多同学会发现，为什么我训练网络的时候loss一直居高不下或者准确度时高时低，震荡趋势，一会到11，一会又0.1，不收敛。又不知如何解决，博主总结了自己训练经验和看到的一些方法。

首先你要保证训练的次数够多，不要以为一百两百次就会一直loss下降或者准确率一直提高，会有一点震荡的。只要总体收敛就行。若训练次数够多（一般上千次，上万次，或者几十个epoch）没收敛，则试试下面方法：

1. 数据和标签

数据分类标注是否准确？数据是否干净？数据库太小一般不会带来不收敛的问题，只要你一直在train总会收敛（rp问题跑飞了不算）。反而不收敛一般是由于样本的信息量太大导致网络不足以fit住整个样本空间。样本少只可能带来过拟合的问题

2. 学习率设定不合理

在自己训练新网络时，可以从0.1开始尝试，如果loss不下降的意思，那就降低，除以10，用0.01尝试，一般来说0.01会收敛，不行的话就用0.001. 学习率设置过大，很容易震荡。不过刚刚开始不建议把学习率设置过小，尤其是在训练的开始阶段。在开始阶段我们不能把学习率设置的太低否则loss不会收敛。我的做法是逐渐尝试，从0.1,0.08,0.06,0.05 ......逐渐减小直到正常为止，

有的时候候学习率太低走不出低估，把冲量提高也是一种方法，适当提高mini-batch值，使其波动不大。,

3.网络设定不合理

如果做很复杂的分类任务，却只用了很浅的网络，可能会导致训练难以收敛，换网络换网络换网络，重要的事情说三遍，或者也可以尝试加深当前网络。

4.数据集label的设置

检查lable是否有错，有的时候图像类别的label设置成1，2，3正确设置应该为0,1,2。

5、改变图片大小

博主看到一篇文章，说改变图片大小可以解决收敛问题，具体博主没试过，只看到有这个方法，具体文章链接：https://blog.youkuaiyun.com/Fighting_Dreamer/article/details/71498256

感兴趣的可以去看看。

6、数据归一化

神经网络中对数据进行归一化是不可忽略的步骤，网络能不能正常工作，还得看你有没有做归一化，一般来讲，归一化就是减去数据平均值除以标准差，通常是针对每个输入和输出特征进行归一化

不收敛描述及可能原因分析
不收敛情景1
描述
从训练开始就一直震荡或者发散
可能原因
图片质量极差，人眼几乎无法识别其中想要识别的特征，对于网络来说相当于输入的一直都是噪音数据，比如通过resize的时候，图片的长宽比改变特别大，使图片丧失对应特征；或者tfrecord中图片大小是（m，n），但是读取的时候，按照（n，m）读取。所以loss一直震荡无法收敛
大部分标签都是对应错误的标签
leaning rate 设置过大
不收敛情景2
描述
训练开始会有所下降，然后出现发散
可能原因
数据标签中有错误，甚至所有标签都有一定的错误，比如生成的标签文件格式和读取标签时设置的文件格式不一样，导致读取的标签是乱码；或者为标签中存在的空格未分配对应的编码，导致读取的空格为乱码（在OCR问题中）
learning rate 设置过大
不收敛情景3
描述
训练开始会有所下降，然后出现震荡
可能原因
loss函数中正则化系数设置有问题，或者loss函数本身有问题。比如，在序列化问题中的label_smoothing设置过大，比如设置为0.9，一般设置为0.1即可（OCR问题中）
数据标签中有错误，甚至所有标签都有一定的错误