版权声明:码字不易,转载请标明出处 https://blog.youkuaiyun.com/hacker_Dem_br/article/details/90293609 </div>
<link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-cd6c485e8b.css">
<div id="content_views" class="markdown_views prism-atom-one-dark">
<!-- flowchart 箭头图标 勿删 -->
<svg xmlns="http://www.w3.org/2000/svg" style="display: none;">
<path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path>
</svg>
<p>论文名称:Libra R-CNN: Towards Balanced Learning for Object Detection<br>
论文作者:Jiangmiao Pang, Kai Chen, Jianping Shi, Huajun Feng, Wanli Ouyang, Dahua Lin
发行时间:Submitted on 4 Apr 2019
论文地址:https://arxiv.org/abs/1904.02701v1#
代码开源:https://github.com/open-mmlab/mmdetection
转自 https://blog.youkuaiyun.com/hacker_Dem_br/article/details/90293609
一. 前言
在检测过程中,作者对在CNN中连续卷积不同尺寸的feature map划分成三个层次:sample level, feature level, objective level. 并提出 Libra R-CNN 来对object detection也就是上面三个level进行平衡。其中, Libra R-CNN 集称了三个部件:
- IoU-balanced sampling
- 用于减少样本数(sample)
- balanced feature pyramid
- 用于减少特征数(feature)
- balanced L1 loss
- 用于减少目标水平的不平衡(objective level)
Libra R-CNN在没有bells和whistles的情况下,在MSCOCO上分别比FPN和RetinaNet在AP(平均精度)上提高了2.5和2.0 points
二. Libra R-CNN Model
作者将本文的检测模型分为了三个阶段:
- sample level
- 用于得到image中描绘出object的候选框框
- feature level
- 将不同尺寸的特征金字塔进行特征融合
- objective level
- 用于将image中的对象分类和定位
图例:

对于Libra R-CNN,作者一共构建了三个组件:
1. Balanced IoU sampling
对于一般的random sampling(从M个候选框中选出N个Negative样本),对每个样本的选择概率是 p = N M p = N M p = N M p=NMp=NM p= \frac{N}{M} p=NMp=NMp=MNLb(x){bα(b∣x∣)ln(b∣x∣)+1γ∣x∣+Cif∣x∣<1otherwise
三. 实验结果

可见提升效果还是挺大的
四. 总结
作者提出 balanced 概念,并将这个概念分别应用到IoU检测候选框、特征融合、损失计算这三个方面上,效果显著提升,值得一读
</div>
<link href="https://csdnimg.cn/release/phoenix/mdeditor/markdown_views-e44c3c0e64.css" rel="stylesheet">
</div>