本篇论文所做的主要贡献是针对Fast R-CNN框架,提出了一种在线筛选hard region的策略。
主要内容:
- 基于区域的Convnet目标检测有许多超参数如负样本与Groundtruth的IOU,正负样本的比例(fast r-cnn正负样本的比例是1:3)等,本论文中作者提出了在线困难样本挖掘方法OHEM(Online Hard Example Mining);
- Fast R-CNN的输入是图像和ROI集合;
- Fast R-CNN的结构可以看成两个部分:
- 卷积网络(Convolutional network):由几个卷积层和max-pooling层组成;
- ROI网络(ROI network):由一个ROI pooling层,几个fc层和2个loss层组成。
-
Foreground ROI(前景区域):一个ROI被标记为fg,则要求它与groud-truth的IoU至少大于等于0.5;
-
Background ROI(背景区域):
-
Balancing fg-bg RoIs(平衡前景-背景区域):对于Fast R-CNN来说,在每个mini-batch里foreground和background的比例是1:3(至少有1/4的正样本positive样本);
-
论文提出的在线困难样挖掘算法OHEM实现主要通过两个ROI网络:只读ROI网络和标准ROI网络,其中一个ROI网络是只读的(readonly),只读的ROI网络(the readonly ROI network)进行前向传播并计算所有的ROI的损失;之后困难ROI样本挖掘模块(b)进行样本挖掘,得到困难样本
并输入(a)标准ROI网络中,网络仅对
进行前向和后向传播,计算梯度并传播到卷积网络。
-
只读ROI网络:
-
-
只读ROI网络的输入是N个图像中的所有ROI R,所以只读ROI网络的batch size是R,而标准ROI网络的batch size是B,论文实验中N=2,B=128。