解决Caffe训练过程中loss不变问题

最新推荐文章于 2025-10-29 10:01:23 发布

原创最新推荐文章于 2025-10-29 10:01:23 发布 · 3.7w 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#caffe #深度学习

caffe 专栏收录该内容

0 篇文章

订阅专栏

在Caffe中训练深度学习模型时，遇到loss值固定不变的问题。对于loss等于87.33的情况，原因是softmax输入数据溢出导致。解决方案包括减小权重初始化值、降低学习率及检查数据异常。而对于loss保持0.69，可能是网络配置或初始化参数引起，加入BN层或调整初始参数有助于收敛。

部署运行你感兴趣的模型镜像

原文地址：http://blog.youkuaiyun.com/u010911921/article/details/71079367
这段在使用caffe的时候遇到了两个问题都是在训练的过程中loss基本保持常数值，特此记录一下。

1.loss等于87.33不变

loss等于87.33这个问题是在对Inception-V3网络不管是fine-tuning还是train的时候遇到的，无论网络迭代多少次，网络的loss一直保持恒定。

查阅相关资料以后发现是由于loss的最大值由FLT_MIN计算得到，FLT_MIN是 $1.17549435e-38F $ 其对应的自然对数正好是-87.3356，这也就对应上了loss保持87.3356了。

这说明softmax在计算的过程中得到了概率值出现了零，由于softmax是用指数函数计算的，指数函数的值都是大于0的，所以应该是计算过程中出现了float溢出的异常，也就是出现了inf，nan等异常值导致softmax输出为0.

当softmax之前的feature值过大时，由于softmax先求指数，会超出float的数据范围，成为inf。inf与其他任何数值的和都是inf，softmax在做除法时任何正常范围的数值除以inf都会变成0.然后求loss就出现了87.3356的情况。

解决办法

由于softmax输入的feature由两部分计算得到：一部分是输入数据，另一部分是各层的权值等组成

减小初始化权重，以使得softmax的输入feature处于一个比较小的范围
降低学习率，这样可以减小权重的波动范围
如果有BN(batch normalization)层，finetune时最好不要冻结BN的参数，否则数据分布不一致时很容易使输出值变得很大(注意将batch_norm_param中的use_global_stats设置为false )。
观察数据中是否有异常样本或异常label导致数据读取异常

本文遇到的情况采用降低学习率的方法，learning rate设置为0.01或者原来loss的 $1/5$ 或者 $1/10$ 。

2.loss保持0.69左右

采用VGG-16在做一个二分类问题,所以计算loss时等价与下面的公式：

l o s s = - l o g (P k = = l a b e l)

$loss=-log(P_{k==label})$

当p=0.5时，loss正好为0.693147，也就是训练过程中，无论如何调节网络都不收敛。最初的网络配置文件卷积层的参数如下所示：

从VGG-16训练好的模型进行fine-tuning也不发生改变，当在网络中加入初始化参数和decay_mult以后再次训练网络开始收敛。

但是具体是什么原因造成的，暂时还没有找到，难道是初始化参数的问题还是？

参考资料

http://blog.youkuaiyun.com/jkfdqjjy/article/details/52268565?locationNum=14

https://groups.google.com/forum/#!topic/caffe-users/KEgrRlwXz9c

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

图文对话

Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型，面向强推理、智能体任务以及多样化开发场景

15 条评论

zzzlnb 2023.05.09
老哥你是咋解决的，我是搜0.693147找过来的[face]emoji:010.png[/face]

陈立里 2018.04.13
楼主 softmax loss 默认的log的底数为e吗？我看网上都只有一个log，具体底数是什么都没说
- yao1249736473回复陈立里 2019.10.16
  [reply]d408550969[/reply] 以前通常把底为e的对数写为ln，后来统一成log了

村民的菜篮子 2017.11.17
我使用tensorflow也是训练集loss保持在0.6931这个值左右小幅度变动，训练集数目10w，尝试改了学习率什么的，都没用，由于学这个不久，如果大神也懂tensorflow，请大神赐教，感激不尽，已经停滞不前好久了，没法进行下一步。
- 大呀大牙牙回复weixin_43771498 2019.08.14
  您好，我遇到了和您一样的问题，请问您是怎么解决的？
- 村民的菜篮子回复春华夜话 2019.06.20
  [reply]weixin_37477600[/reply] 这个多数是数据集的问题吧
- Irisllay回复村民的菜篮子 2019.05.31
  [reply]sinat_33486980[/reply] 您好，请问您这个问题解决了么？如果解决了可以问一下如何修改么
- weixin_43771498回复村民的菜篮子 2019.04.25
  [reply]sinat_33486980[/reply] 能请教一下你具体是怎么解决训练集accuracy为0.5，loss一直保持0.69左右，如果数据集的问题的话，请问怎么处理，谢谢
- 春华夜话回复cx2214496 2018.09.01
  [reply]cx2214496[/reply] 二分类loss不变怎么解决的呀？
- 村民的菜篮子回复ylh1234 2018.06.02
  [reply]ylh1234[/reply]我后面发现是我的数据集的问题，两个类几乎分不开，所以，loss一直不变，至于为什么是0.69附近波动，我觉的是softmax什么的最后算出来的结果导致的。
- ylh1234回复村民的菜篮子 2018.04.16
  [reply]sinat_33486980[/reply] 你这个问题解决了吗。我也遇到这样的问题了，如果看到了希望QQ我1297025039
- cx2214496回复村民的菜篮子 2017.12.22
  [reply]sinat_33486980[/reply] 请问训练的时候怎么画出loss？

qq_40888795 2017.11.01
我也出现过训练集loss一直保持0.69左右，一直不收敛，而且我原来的网络结构是可以正常work的，尝试过把卷积层的初始化参数重新设置过，但是都没有效果，后来设置过优化函数sgd（使用adam也不收敛），且必须使dropout为0，训练集才开始收敛，真是很奇怪的现象
- qq_33827953回复qq_40888795 2018.05.02
  [reply]qq_40888795[/reply] 您好，可以具体一点吗，您指的dropout参数在哪里
- 好饿好饿啊回复qq_40888795 2018.04.24
  [reply]qq_40888795[/reply] 您好，我出现的情况是之前能work，后来不知道怎么了，loss就一直是0，693，不收敛，请问您知道这是什么情况吗