FasterRCNN训练自己的数据前40个iter正常，后面突然出现rpn_loss_cls: nan rpn_loss_box: nan

最新推荐文章于 2024-10-12 10:42:44 发布

梦飞天

最新推荐文章于 2024-10-12 10:42:44 发布

阅读量5.7k

点赞数 7

分类专栏： tensorflow 人工智能文章标签： FasterRCNN

本文链接：https://blog.youkuaiyun.com/slq1023/article/details/90147042

版权

在使用FasterRCNN-tensorflow训练自定义数据集时，从第40个迭代开始，rpn_loss_cls和rpn_loss_box出现nan值。日志显示在bbox_transform.py文件中有多个RuntimeWarning，提示overflow和invalid value。已尝试调整GPU arch、检查数据集和修改学习率，但问题未解决。最终发现是Network batch size与rpn_batchsize设置不一致导致，修正后问题解决。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

环境：win7+python3.5+FasterRCNN-tensorflow

源码：https://github.com/dBeker/Faster-RCNN-TensorFlow-Python3.5

问题：FasterRCNN训练自己的数据前40个iter正常后面突然出现rpn_loss_cls: nan rpn_loss_box: nan，log如下：

iter: 10 / 40000, total loss: 1.628789
>>> rpn_loss_cls: 0.594060
>>> rpn_loss_box: 1.034645
>>> loss_cls: 0.000085
>>> loss_box: 0.000000

speed: 0.315s / iter
iter: 20 / 40000, total loss: 4.250577
>>> rpn_loss_cls: 1.961701
>>> rpn_loss_box: 2.258930
>>> loss_cls: 0.029946
>>> loss_box: 0.000000

speed: 0.228s / iter
iter: 30 / 40000, total loss: 2.831758
>>> rpn_loss_cls: 0.598376
>>> rpn_loss_box: 0.246269
>>> loss_cls: 1.368618
>>> loss_box: 0.61