Cascade R-CNN训练自己的数据

最新推荐文章于 2025-11-18 03:36:51 发布

原创最新推荐文章于 2025-11-18 03:36:51 发布 · 8k 阅读

36 ·

CC 4.0 BY-SA版权

文章标签：

#Cascade RCNN #训练

程序设计专栏收录该内容

40 篇文章

订阅专栏

本文档详细介绍了使用Cascade R-CNN进行目标检测的步骤，包括数据准备、训练集与测试集的创建、test_name_size.txt的制作，以及训练过程中遇到的问题和解决方案。通过调整网络配置，如修改输入尺寸、分类数、anchor大小等，成功应用于自己的数据集。

部署运行你感兴趣的模型镜像

传送门：

1. 前言

Cascade RCNN是目标检测非常不错的一种方法，没有过分强调主干网络，而是采用层叠的方式提高IOU阈值来提纯样本，对不同的主干网络都能取得2~4个点的提升。这里使用的是Cascade RCNN example下的vgg-9s-600-rpn-cascade模型，这里的9s代表的是有9个anchor，600代表短边的尺寸，这里记录在使用这个代码训练自己的数据的过程，这里需要的目标检测的类别是2，在加上一个背景类就是3。
代码地址：Cascade RCNN

2. 数据准备

2.1 训练集（trainval.txt）与测试集（test.txt）

这里的标注数据是存储在txt文件中的，这里拿出一个标注节点来进行说明，每个人标注的形式都不一样，这里就不给代码了，理解了之后按照这个格式进行制作数据集就行了。

# 0 # 图像的编号ID，从0开始
JPEGImages/A3_B1_17_3_1.jpg # 图像的路径，与prototxt中的source参数一同设置
3 # 图像的channel数
1440 # 图像的高度
1080 # 图像的宽度
8 # 图片中标注框的数目
# 标注示例：label_id ignore difficult x1 y1 x2 y2
2 0 0 776 604 940 651
2 0 0 767 652 973 710
2 0 0 776 724 977 766
2 0 0 777 792 980 829
2 0 0 778 846 974 890
2 0 0 563 1254 847 1303
2 0 0 561 1317 847 1379
1 0 0 394 26 688 68
0 # num_roni_windows

2.2 test_name_size.txt制作

这个文件的作用就是记录测试图片的尺寸信息，其标注的格式为：

# 示例：图片的名字 图像的高度 图像的宽度
000127 375 500

3. 步骤

Step 1： train.prototxt设置输入图片的尺寸，最好是32的倍数。

short_size: 608
long_size: 832

Step 2： 修改网络中的分类数目，设置为检测的目标数加背景类，根据我的需求这里就设置为3，把img_width和img_height全部变成你的short_size。
在这里插入图片描述
Step 3： 因为cascade训练第一步需要找iou>0.5的，如果你的目标太小，可能需要考虑增加anchor的数量或是修改anchor的值，如下是根据实际情况设置的anchor size：
那么在出现field_w与fiel_h的地方也要根据anchor的值进行修改：
在这里插入图片描述
Step 4： 记得在test.prototxt与deploy.prototxt中也要做相对与train的修改。
Step 5： 在做测试的时候，检测代码也要修改short_size 和 long_size。测试代码后序整理贴出。

4. 问题与解决

1）作者的网络配置文件是采用long_size和short_size的方式，这要求输入图像是矩形，但是对于正方形的输入，long_size和short_size就不是很合适了。这时候，可以采用 resize_width 和 resize_height 进行设置

long_size: 800
short_size: 1312

修改为

resize_width: 640
resize_height: 640

这里我们一般希望长宽都是 32 的倍数关系，如果不希望拉伸，最好这里设置的长宽和图片实际长宽一致。
2) 如果在训练的时候出现 “F0930 05:55:49.924599 32355 decode_bbox_layer.cpp:110] Check failed: keep_num > 0 (0 vs. 0)”，这可能是proposal boxes 数量不足，或者是网路跑飞了，可以通过以下两个地方修改：
a) 降低 “BoxGroupOutput” 层中的 fg_thr，增加proposal boxes 的数量。
b) 如果降低了还是出现类似的错误，那就降低 base_lr。

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎

25 条评论

远方上鸭 2023.10.18
你好，博主，我最近也在摸索cascade rcnn这个模型，请问博主可以分享一下复现的模型代码吗？我在GitHub和gitee上找到的代码都因为时间过早导致不能正常运行，没办法解决，真的谢谢啦

小四掰 2019.08.14
博主，你好请问你的anchor的值是怎么得到的呢？我在训练时遇到Iou=-1，loss不下降不收敛的问题？您能给我建议吗？谢谢！
- m_buddy回复小四掰 2019.08.31
  [reply]qujiafan2464[/reply] faster rcnn的anchor生成的时候不是有stride参数嘛，也就用它来映射到输入图像的尺寸
- 小四掰回复m_buddy 2019.08.23
  [reply]m_buddy[/reply] 博主你确定吗？yolo v2/v3的anchor size是聚类来的，但是都是基于原图聚类的，这和RCNN的anchor不太一样哦，那个是基于特征图的，却是基于原图回归的，这样混搭真的可行吗？
- m_buddy回复小四掰 2019.08.19
  [reply]qujiafan2464[/reply] 是的，这个anchor值是我自己设置的，根据我的数据集聚类得到的结果
- 小四掰回复m_buddy 2019.08.19
  [reply]m_buddy[/reply] 你的博客里写的是按实际情况设置的anchor_size?而且作者的源码里也没有这种size 的anchor。
- m_buddy回复小四掰 2019.08.18
  [reply]qujiafan2464[/reply] anchor这块儿我没改过，IoU等于-1？这明显就有问题，先查下数据有没有问题吧

睡卜醒起卜来 2019.07.31
怎么按照那个格式制作数据集啊，有代码吗？给说一下呗，谢谢了
- 睡卜醒起卜来回复m_buddy 2019.08.03
  谢谢了[face]monkey:3.gif[/face]
- 睡卜醒起卜来回复睡卜醒起卜来 2019.08.03
  你有写好的脚本吗？发给我一下可以吗？QQ邮箱:1343304622@qq.com
- m_buddy回复睡卜醒起卜来 2019.08.03
  [reply]zh1993121[/reply] 这个脚本找不到了，只要理解cascade rcnn的需要输入是什么，自己写一个脚本，很快的

睡卜醒起卜来 2019.07.31
您好，自己的数据怎么生成trainval.txt文件啊，有代码吗

weixin_41880803 2019.06.03
你好，博主，有个问题想请教下呢。请问标注的样本尺寸是不是要和train.prototxt里的short_size和long_size相同吗，还是这两个没有关系，而是算法内部已经按照short_size和long_size来对输入数据做归一化啊？
- m_buddy回复weixin_41880803 2019.06.29
  [reply]weixin_41880803[/reply] ok
- weixin_41880803回复m_buddy 2019.06.24
  [reply]m_buddy[/reply] 嗯嗯，谢谢楼主的热心点播，ssd的试过了，确实还可以
- m_buddy回复weixin_41880803 2019.06.23
  [reply]weixin_41880803[/reply] 或许你直接用Faster rcnn的结果还比cascade rcnn的结果好（检出率方面），我的个人理解是级联处理过程中一些信息被丢弃掉了，至于backbone我没去替换过；SSD系列的算法也是很不错的，可以试试，还有一些非anchor的检测算法（cornernet、centernet之类的）也可以用用
- weixin_41880803回复m_buddy 2019.06.21
  [reply]m_buddy[/reply] 还是没太明白为啥VGG对这个不太好，好像就只有conv_5这一层的特征来回归，效果还没ssd检测好；楼主是说换成resnet或者其他的网络吧
- m_buddy回复weixin_41880803 2019.06.20
  [reply]weixin_41880803[/reply] 这个网络当时我在自己的数据集上也会存在误检和漏检，放弃了这个网络，可以尝试一些新的方法，label后面的宽高是原始图像的宽高哈
- weixin_41880803回复weixin_41880803 2019.06.10
  追问下楼主，这个label后的宽高，是映射到训练时设置的，比如800x608对应的宽高吗
- weixin_41880803回复m_buddy 2019.06.10
  发现是训练时没收敛原因，加了点样本，可以检测到，但是效果不太好，很多漏检也有误检；检查了txt没发现问题啊，格式没错
- m_buddy回复weixin_41880803 2019.06.09
  [reply]weixin_41880803[/reply] 这个直接把那行代码注释了肯定有问题吧，我觉得你的数据集制作的可能有点问题，之前跑这个开源的代码，按照要求做数据，结果至少还是会有的。
- weixin_41880803回复m_buddy 2019.06.05
  label是正确的，我直接把那行代码屏蔽了。但是训练很奇怪，训练的loss降低，训练测试时一个目标也检测不到，训练样本540张人头检测的。不知道啥原因，就算样本少，也不至于检测不到目标，博主能否给点建议啊
- m_buddy回复weixin_41880803 2019.06.04
  [reply]weixin_41880803[/reply] 有效的label是从1开始的，0是背景类，检查下label是否正确吧
- weixin_41880803回复m_buddy 2019.06.04
  好的，谢谢博主，我训练的时候遇到个错误： I0604 13:28:15.270220 87804 detection_data_layer.cpp:142] num: 0 /home/zhulei/data/VOCdevkit/VOC2007/JPEGImages/IMG_0_112.jpg 3 1080 1920 windows to process: 36, RONI windows: 0 F0604 13:28:15.274016 87804 detection_data_layer.cpp:123] Check failed: label > 0 (0 vs. 0) 看了下源码，猜测这个地方是label和0比较，感觉我的label没标错，加背景2类，label是1，不知道咋回事
- m_buddy回复weixin_41880803 2019.06.04
  [reply]weixin_41880803[/reply] 训练样本的尺寸可以不和short_size之类的一致哈，它里面会resize，请参考Faster RCNN的实现，两者是类似的