FoveaBox (COCO:42.1 AP)

FoveaBox是一种高效的目标检测算法,受到人眼视觉原理的启发,它能够适应不同尺度的目标,无需预设锚点框,尤其适用于长宽比变化大的物体检测。算法通过特征金字塔网络(FPN)提取多尺度特征,利用Fovea概念定义正样本区域,结合FocalLoss解决正负样本不平衡问题,最终实现精确的目标定位和分类。

FoveaBox (COCO:42.1 AP)

Absract

预测分类热图和每个可能存在目标的区域的类别未知的目标框

对拉伸图像和改变了尺寸分布的目标具有很强的适应性

Introduction

FoveaBOX 收到人眼凹包的启发,只有中心的视觉区域才有最高的清晰度

[外链图片转存失败(img-49uYeV1s-1567866312253)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1562133419731.png)]

network

1. FPN backbone

特征金字塔:P3,P4,P5,P6,P7,每层通道数为256

第Pi 层的分辨率为原图的1/2^i

[外链图片转存失败(img-HNIGzulp-1567866312263)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1562136118940.png)]

2.scalae assignment

根据FPN的层数将不同尺度的目标分为几类,对FPN的第Pi层,对应的基础域为Si = 4^i * S0. 其中S0 = 16。

每个特征图上覆盖的尺度范围通过一个参数η 来定义,如果η= 2^0.5 那么每个尺度范围没有重叠,如果η= 2 ,则每个尺度范围将有所重叠,那么某些尺度的物体将会在不同的特征图上进行检测。

3.object Fovea

Fovea 其实就是依据 ground truth 在输出的特征上制定的正样本区域

给定一个 ground truth 的坐标 (X1,Y1,X2,Y2),首先将这个矩形框映射到其对应的金字塔层,其缩放公式如下所示:

[外链图片转存失败(img-jef7rU5C-1567866312267)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1562137341408.png)]

在其映射得到的坐标基础上添加缩放因子来制定正区域,也就是 Fovea(中心点不变,缩放尺寸):

[外链图片转存失败(img-DscFds7c-1567866312269)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1562138159246.png)]

  • σ1 是缩放因子,处于正区域范围内的单元会在训练的时候被标上相应类别标签。而另外一个缩放因子 σ2 会被用在制定负区域,同样的计算方式(实验中采用的是 σ1=0.3,σ2=0.4)。与此同时,需要注意此时的正样本只占了一小部分,为了克服正负样本不均衡,在分类任务中采用了 Focal loss。

  • 正负样本选择:

    FoveaBox需要对特征图上每个点都预测一个分类结果以及并回归边框的偏移量,由于物体真实边框附近的点远离物体中心,或者与背景像素更为接近,如果将其作为正样本,对模型的训练造成困难。因此作者通过一个简单的变换,先通过groundtruh边框得到物体中心在特征图中对应的位置,然后通过一个参数σ1 调节物体高和宽,将用来训练的真实边框位置向物体中心收缩一点,收缩后的边框内部的点作为正样本,然后使用参数σ2再次调节边框高和宽,使其向外扩展一点,使用扩展边框外部的点作为负样本,这样将两个边框范围内的点忽略掉,增加正负样本之间的判别度

4.Box Prediction

学习映射关系,将特征图上选为正样本的坐标(x,y)首先变换到原图上的坐标,然后得到该坐标与其所属物体样本的groundtruth边框的偏移量:

[外链图片转存失败(img-vlEsih0V-1567866312271)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1562138560660.png)]

其中Z = (Si)^0.5,为归一化因子,使得输出空间映射到以 1 为中心的新空间。使用Smooth L1 loss 来训练回归损失Lbox

5. Optimization

优化器为SGD, 270k iterations , learning rate of 0.005(divided by 10 at 180k and 240k),Weight decay of 0.0001 and momentum of 0.9

FoveaBox的性能超过了所有一步检测器和大多数的两步检测器,仅比Cascade RCNN性能稍差

作者提出,如果将FoveaBox稍加改动,用做提取region proposal的模型,可以进一步提升两步检测器的性能。

不受先验锚点框尺寸的束缚,其拟合能力更强,对于长宽比变化较大较极端的物体更具优势。

FoveaBox中还有一些anchor box多尺度的影子,也就是要将物体边框向某个尺度因子归一化,但是毕竟每个特征图只有一个尺度因子,相比经典的基于anchor box的方法,输出量已经大大降低。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值