Learning RoI Transformer for Oriented Object Detection in Aerial Images
0.摘要
航空图像中的目标检测是计算机视觉中一个活跃而又具有挑战性的任务,因为它具有鸟瞰视角、高度复杂的背景和变化的物体外观。特别是在航空图像中检测密集的目标时,基于水平建议的普通目标检测方法往往会导致感兴趣区域(Region of interest, RoIs)与目标之间的不匹配。这就导致了最终目标分类置信度与定位精度之间的常见偏差。在本文中,我们提出了一个RoI Transformer来解决这些问题。RoI Transformer的核心思想是对RoI进行空间变换,并在定向包围框(OBB)注释的监督下学习变换参数。RoI Transformer是轻量级的,可以很容易地嵌入到检测器中,用于定向对象检测。简单地将RoI Transformer应用于light-head RCNN 已经在两个常见且具有挑战性的航空数据集上取得了最先进的性能,即DOTA和HRSC2016,检测速度的降低可以忽略。当定向边界框注释可用时,我们的RoI Transformer超过了可变形的位置敏感 RoI pool-ing。大量的实验也验证了我们的RoI Transformer的灵活性和有效性。
1.介绍
(1)背景
水平框检测会造成边界框和目标的不一致性,尤其是当目标密集分布时。由于航空影像目标方向的多样性,使用有限方向的RRoIs很难与所有的目标都正确匹配,并且多方向的RRoIs还会造成计算的高度复杂性。空间变换、形变卷积和RoI池化常被用来处理几何变形,并且不涉及标注的旋转边界框。在航空影像中,提取具有旋转不变性的区域特征,对于消除区域特征和目标的不匹配问题是非常重要的。
(2)本文研究的主要内容:
提出了RoI Transformer的模块结构,通过标注RRoI的监督学习和基于位置敏感对齐的特征提取,旨在利用双阶段框架实现密集旋转目标的检测。它由两部分组成:
第一个是RRoI学习器,它学习从hroi到RRoI的转换。
第二个是旋转位置敏感RoI Align,从RRoI中提取旋转不变特征,用于后续的对象分类和位置回归。
(3)本文研究的主要贡献:
- 我们提出了一个有监督的旋转RoI学习器,它是一个可以将水平RoI转换为RoI的可学习模块。该设计不仅可以有效缓解RoIs与对象之间的错位,还可以避免为定向对象检测而设计的大量锚点。
- 设计了用于空间不变特征提取的旋转位置敏感感兴趣区域对齐模块,可以有效地促进目标分类和位置回归。当使用light