FASTER_R2CNN:
一: 模型结构:(https://blog.youkuaiyun.com/attitude_yu/article/details/80378023论文翻译)
- 在原有Faster RCNN的基础上使用RPN网络产生文本区域的proposal,修改网络的输出为文本区域分类、文本区域矩形框和文本区域倾斜矩形框;
- 为了能够更好检测文本区域,使用尺寸为(7∗7,11∗3,3∗117*7,11*3,3*117∗7,11∗3,3∗11)的池化尺寸,在将这些池化的结果组合起来去产生回归结果;
- 文章也针对本文的场景设置anchor,比如设置小的anchor检测小的文本,最后使用带有倾斜矩形框的NMS处理得到最后的结果
二:github中的指导信息:
Train: 1 训练自己的数据
- 修改参数:在此文件中path_root/libs/configs/cfgs.py中的参数(如class_num、dataset_name等)
- 修改类别:在path_root/libs/label_name_dict/label_dict.py中添加类别信息
- 将data_name添加到path_root/data/io/read_tfrecord.py的第75行
2 制作需要的数据格式:
在Tensoflow中,预处理数据除了使用tf.data.Dataset以外,还可以使用TFRecords。和tf.data.Dataset相比,优缺点如下(个人总结):
- 在训练时节省数据预处理的计算资源。 使用TFRecords时,是将原始数据处理之后,以一种特定的格式保存为TFRecord文件,训练是只是简单的将数据取出来训练,在训练时可以节省相当多的计算资源。
- 预处理数据的逻辑可以非常复杂。 使用TFRecords时,数据预处理可以使用任意python代码完成,而不必拘泥于Tensorflow预定义的操作,为预处理数据提供了相当的灵活性,预处理数据的逻辑可以非常复杂。
- 训练时占用的内存更小。 这点可能时因为不需要复杂的数据预处理,所以占用的内存更小。
处理之后的数据可能比原始数据大好几倍。 这点是针对图像数据的,图像因为有压缩,所以图像原文件都比较小。预处理完成以后,像素值以浮点数或者整数的形式保存。所以和图像原始图像数据相比,处理之后的数据要比原始数据大好几倍
R2CNN ++:
一 :论文(
SCRDet: Towards More Robust Detection for Small, Cluttered
and Rotated Objects简述)
本文提出了一种用于小、杂、旋转物体的多目标旋转检测器,即SCRDet。设计了一种融合多层特征和有效锚点采样的采样融合网络,提高了对小目标的灵敏度。同时,通过抑制噪声,突出目标特征,针对小而杂乱的目标检测问题,研究了监督像素注意网络和信道注意网络。为了得到更精确的旋转估计,在光滑L1损失中加入IoU常数因子来解决旋转边界盒的边界问题
1 简介:物体的小、杂、旋转物体,以及数据集中也不是水平放置等,如用于文本检测,文字可以是任意方向和位置。主要有一下三个方面:小物体,杂乱排列,任意方向。因此提出了一种新的多类别旋转检测器来解决这些问题,
小目标:设计了融合特征融合和精细锚点采样的采样融合网络(SF-Net);
噪声背景:为了抑制噪声,突出前景,提出了一种由像素注意网络和信道注意网络组成的监督多维注意网络(MDA-Net)
任意方向密集物体:通过引入角度相关参数进行估计,设计了一种角度敏感网络
2 相关工作:总结相关的检测方法,提出先关的不足,提出自己的方法
3 具体方法:
3.1 更精细的采样和特征融合:
检测小物体的障碍:对象特征信息不足,锚点样本不足
SF-Net通过改变feature map的大小来解决这个问题,使得SA的设置更加灵活,使得采样更加自适应。为了降低网络参数,SF-Net只在Resnet[16]中使用C3和C4进行融合,平衡语义信息和位置信息,忽略了其他不太相关的特征。
3.2 多维注意网络:
由于航空图像等真实数据的复杂性,RPN提出的方案可能会引入大量的噪声信息。需要增强目标,去除噪声。
3.3 旋转角度:
范围[-π/2;0),θ的定义是锐角的轴,另一边我们表示这是w。这个定义符合OpenCV。然后使用R-nms进行旋转框计算。
3.4 损失函数:
为解决回归时同时长和宽的缩放问题,在传统光滑损失L1中加入IOU常数因子。使用IOU优化定位精度符合其度量,且比坐标回归更有效
后面为实验与分析就不在简介。
二: 实验部分
实验部分操作与R2CNN的类似。
总结:R2CNN++为r2cnn的改进,引入了注意机制等,正如文中所诉,主题网络可以随意更换,并不限制。