2019年anchor-free的论文
文章目录
概述
- 要解决的问题
- One-stage anchor-free object detection
- 采用的方法
- center到top, left,right, bottom边距的回归
- 由于采用了上述方法,出现了一些低质量的预测框,使用了“center-ness”方法来处理
- 结果如何
- 比肩anchor-based一类的方法
- one-stage state-of-the-art
- FCOS的方法可以用作二阶段的RPN部分,效果提升
- 相关
- 之前有过FCN-based的框架来做检测:DenseBox(2015), UnitBox(2017)。
- 这些FCN-based的方法呢,都是直接在每个spatial location上进行预测(4D vector & 1-D cls)
- anchor-based:来源于对于滑动窗口的考虑,如Fast R-CNN,Faster R-CNN, SSD,
- anchor-free:most popular anchor-free detector might be YOLOv1,v2以及以上就使用了anchor,CornerNet,
细节
-
1、Fully Convolution One-Stage Object Detector
-
regression target: t ∗ = ( l ∗ , t ∗ , r ∗ , b ∗ ) t^*=(l^*, t^*, r^*,b^*) t∗=(l∗,t∗,r∗,b∗),这里的四个 l ∗ , t ∗ , r ∗ , b ∗ l^*, t^*, r^*,b^* l∗,t∗,r∗,b∗分别表示的是location到bbox四个边的距离
-
如果location落在了多个bbox里,那么认为这是一个“模糊样本”,选择小的bbox作为这个location预测样本的target
-
Loss函数(网络输出)
L ( P x , y , t x , y ) = 1 N p o s ∑ L c l s ( P x , y , c x , y ∗ ) + λ N p o s ∑ 1 c x , y ∗ > 0 L r e g ( t x , y , t x , y ∗ ) L({P_{x,y}, {t_{x,y}}})=\frac{1}{N_{pos}}\sum{L_{cls}(P_{x,y}, c^*_{x,y}) + \frac{\lambda}{N_{pos}}\sum{1_{c^*_{x,y}>0}}L_{reg}(t_{x,y}, t^*_{x,y})} L(Px,y,tx,y)=Npos1∑Lcls(Px,y,cx,y∗)+Nposλ∑1cx,y∗>0Lreg(tx,y,tx,y∗)前面的分类损失函数是focal loss,回归损失则是IOU loss, N p o s {N_{pos}} Npos表示的是正样本的数量
-
-
2、Multi-level Prediction with FPN for FCOS
正负样本
{ P 3 , P 4 , P 5 , P 6 , P 7 P_3,P_4,P_5,P_6,P_7 P3,P4,P5,P6,P7}特征层,分别对应的stride是8,16,32,64,128,在此处做一个限制,对于第 i i i层的数据我们要满足 m a x ( l ∗ , r ∗ , t ∗ , b ∗ ) > m i {max(l^*,r^*,t^*,b^*)}>m_i max(l∗,r∗,t∗,b∗)>mi或者满足 m a x ( l ∗ , r ∗ , t ∗ , b ∗ ) < m i − 1 {max(l^*,r^*,t^*,b^*)}<m_{i-1} max(l∗,r∗,t∗,b∗)<mi−1,那么这个location的预测框设为负样本。那么 m 2 , m 3 , m 4 , m 5 , m 6 , m 7 m_2, m_3, m_4, m_5, m_6, m_7 m2,m3,m4,m5,m6,m7设置为0, 64, 128, 256, 512, ∞ \infty ∞
-
3、Center-ness for FCOS
motivation: 许多低质量的预测框(远离目标的中心)
所以增加了一个branch来预测每个location的center-ness,表示的是某一个location距离目标中心的距离。对应的target如下:c e n t e r n e s s ∗ = m i n ( l ∗ , r ∗ ) m a x ( l ∗ , r ∗ ) ∗ m i n ( t ∗ , b ∗ ) m a x ( t ∗ , b ∗ ) centerness^*=\sqrt{\frac{min(l^*, r^*)}{max(l^*,r^*)}*\frac{min(t^*, b^*)}{max(t^*, b^*)}} centerness∗=max(l∗,r∗)min(l∗,r∗)∗max(t∗,b∗)min(t∗,b∗)
Result
Param | Value |
---|---|
dataset | COCO |
backbone | ResNet-50, 超参与RetinaNet相同 |
Optimizer | SGD, 90K iters, lr=0.01 |
batchsize | 16 images |
inference params | post-processing NMS |
- BPR:best possible recall
- FPN
- 对比
- 质量分析
Conclusion
暂缓