目录
摘要
DARDet:Dense anchor-free rotated object detector
- 直接在特征图的每个前景像素上预测出旋转边界框的五个参数;
- 使用新的对齐卷积模块提取对齐特征;
- 引入PIoU损失
一、引言
(1) 当航空影像的目标具有不同的尺度和长宽比,并且方向任意且密集分布,导致检测任务存在巨大挑战。
(2) 现存的anchor-based方法都是在矩形边界框的基础上引入了额外的角度维度的信息,并使用距离损失进行优化。这种anchor-based模型对anchor超参数敏感,并且容易产生因边界不连续而导致性能退化的问题。
(3)现存的anchor-free算法都是基于关键点的检测器,每个OBB值对应一个训练样本,导致训练时间很长,且难以解决边界不连续的问题。此外,这类方法的特征与旋转边界框往往是不对齐的。
(4)本研究在VarifocalNet的基础上提出了一个密集的anchor-free的旋转目标检测器:
- 直接预测一个用于OBB编码的五维向量

- 使用对齐卷积模块(ACM)将特征与OBB对齐
- 引入PIoU损失解决边界不连续问题
二、算法
1.总体结构
(1) 特征提取模块
- 由Backbone和FPN组成
(2)DarDet head
定位子网络:
- 输入特征金字塔的每一层特征图,使用1个3×3的卷积生成一个256通道的特征图;
- 在初始化和优化阶段分别进行OBB的回归和精炼
- 在初始化阶段,使用一个卷积层在每个空间位置上生成一个5D向量
,并利用ACM模块提取对齐特征
- 在优化阶段,利用对齐特征图生成一个5D的偏差向量
,然后与初始的OBB位置向量相加,得到优化后的OBB
- PIoU损失用来优化OBB
分类子网络
- 与定位子网络的优化阶段结构相似,用于估计IACS(IoU-aware classification scores)
- 输出的IACS是一个具有C(类别数)通道的向量,代表分类置信度和定位精度
- 使用Varifocal loss对密集旋转目标检测器进行训练,输出预测的IACS
2.对齐卷积模块
主要用于捕捉OBB的几何信息和背景上下文信息,有利于预测OBB与真实目标框的对齐。
该模块使用可变性卷积(deformable convolution)来对齐OBB和特征,具体来说:
- 给定特征图的一个采样位置
,首先回归得到初始的OBB向量
;
- 根据初始的OBB,选择九个采样点(OBB的4个顶点和4个边的中点,以及采样位置),如图1所示;
- 将这9个定位点映射到特征图上,通过可变形卷积对投影点上的特征进行卷积,以提取对齐特征,如图3所示;
- 这些定位点是手动选择的,计算量可以忽略不计。

3.PIoU损失
边界不连续是指由于边缘的角度周期性和边的可交换性,边界处的损失急剧增加。
角度的定义是长边和y轴的夹角
PIoU (Pixels-IoU loss)联合OBB的5个参数,检查每个像元的位置,解决边界不连续问题。


如上图5所示,给定OBB b(蓝色编码为的旋转边界框)和影像中的像元
,使用定义的二值函数来判断二者的相对位置:
公式(1)是不连续不可微分的,可以通过两个核函数相乘近似表示这个二值函数:
核函数定义为 :
和
面积的交集和并集可以近似计算为:
PIoU的计算方式为:
三、实验部分
1. 数据集
(1) DOTA:15个类别,随机翻转和数据增广,单尺度训练和测试
(2) HRSC2016:航空影像的舰船检测
(3) UCAS-AOD:飞机和汽车的检测
2. 环境设置
(1) 超参数
- 迭代次数:12epoches
- batch-size:6
- backbone:ResNet50
- 优化器:SGD
- 初始学习率:0.01
- momentum:0.9
- weight decay:0.0001
(2) 在backbone的最后阶段,使用可变形卷积替代普通卷积层,以扩大感受野,并训练模型24epoches
3. 消融试验(DOTA数据集)
(1) 将修改后的VarifocalNet作为基准:mAP为63.19%
(2) 对齐卷积模块ACM的有效性:与基准模型相比,mAP提高了3.8%
(3) PIoU 损失函数的有效性:mAP从66.98%提升到了72.44%
4. 与SOTA的对比
(1) DOTA数据集上的结果:单尺度ResNet50的DARDet能够获得77.61%的mAP,旋转增强后能够获得所有单尺度算法里最优的检测精度,检测速度仅次于S2A-Net
(2) HRSC2016数据集上的结果:DARDet表现最好,精度90.37%
(3) UCAS-AOD数据集上的结果:DARDet表现最好,mAP为90.37%