RetinaNet

最新推荐文章于 2024-03-27 21:31:01 发布

原创最新推荐文章于 2024-03-27 21:31:01 发布 · 169 阅读

0 ·

CC 4.0 BY-SA版权

论文信息

Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár, Focal Loss for Dense Object Detection, ICCV 2017.

https://arxiv.org/abs/1708.02002

历史的发展

我们重点关注神经网络重新崛起之后的内容, 先前的内容以后也许会简单提一下.

两大门派

两大门派主要是one stage与two stage, 二者在accuracy与speed各有侧重, 但最终还是trade-off.

	one stage	two stage
algorithms	YOLO, YOLT	R-CNN, SPPnet
accuracy	Low(30% mAP)	High(60%+ mAP)
speed	Fast(100+ FPS)	Slow(5 FPS)

two stage

其主要特点是先使用某种算法(selective search, RPN, etc.)产生一系列proposal, 将这些proposal喂到某个预训练神经网络(VGG-16, ResNet, etc.)中, 之后对输出进行分类.

特别的, RPN会预分类(background vs foreground)

one stage

大多数模型会采用一系列类似于滑窗分类器或是"anchor"直接进行分类而无proposal过程.

RetinaNet

本文中的模型是基于one stage, 目的也显而易见便是为了提升accuracy.

主要贡献

提出观点: 导致one stage精确度不足的重要原因有class imbalance.

class imbalance

所谓class imbalance便是由于two stage模型大多会对bg与fg预分类, 因此bg数量不会远大于fg数量, 而one stage模型为了提升速度舍弃了proposal过程, 因此大多数模型也谈不上预分类问题,这样虽然速度提升并且使用交叉熵, 但往往还是由于easy sample(e.g. bg)远大于hard sample(e.g. fg), 往往相差2 order, 以至于easy sample的loss统治整体loss.

此前的一些解决方案

OHEM直接舍弃部分easy example, 毫无疑问会导致数据残缺, 进而影响结果

本文的解决方案

提出了一个新的loss func:
$CE(p_t) = -log(p_t)\\ FL(p_t) = -\alpha_t(1-p_t)^\gamma CE(p_t)$
其中
$p_t=\left\{ \begin{aligned} p && y = 1\\ 1-p && otherwise \end{aligned} \right.\\ \alpha_t=\left\{ \begin{aligned} \alpha && y = 1\\ 1-\alpha && otherwise \end{aligned} \right.$
特别的, $C E$ 是交叉熵. 在作者的实验中发现 $\gamma = 2, \alpha = 0.25$ 时取得最好结果.

probability of ground truth class

通过仿真图我们可以发现, 对于相对有把握的类别(easy sample, e.g. bg), loss设置较小, 而对于较没有把握的类别(hard sample, e.g. fg), loss较大, 这样就防止出现把握较大的类别因为数量优势统治loss.

我们从四种情况分析loss函数:

正确分类 & 目标项容易分类 - $\approx 1$

此时 $p_t = p \approx 1$ , 而 $\gamma > 1$ , 因此 $FL(p_t) << CE(p_t)$
正确分类 & 目标项不易分类 - $\approx 0$

此时 $p_t = p \approx 0$ , 而 $\gamma > 1$ , 因此 $FL(p_t) \approx CE(p_t)$
错误分类 & 目标项容易分类 - $\approx 1$

此时 $p_t = 1 - p \approx 0$ , 而 $\gamma > 1$ , 因此 $FL(p_t) \approx CE(p_t)$
错误分类 & 目标项不易分类 - $\approx 0$

此时 $p_t = 1 - p \approx 1$ , 而 $\gamma > 1$ , 因此 $FL(p_t) << CE(p_t)$