【论文】Learning RoI Transformer for Oriented Object Detection in Aerial Images

RoITransformer是为了解决航空影像中密集旋转目标检测的问题,它通过RoI Learner学习从常规RoIs(HRoIs)到旋转RoIs(RRoIs)的转换,并利用旋转位置敏感的RoIAlign提取空间不变性特征。该方法解决了水平框检测的目标不一致性和多方向RRoIs的复杂性,实现了高效、低复杂度的特征提取。RoITransformer在多个大型数据集上的实验验证了其有效性。
部署运行你感兴趣的模型镜像

RoI Transformer: 将空间转换应用在RoIs上,并通过标注旋转框,监督学习得到转换参数。

RoI Transformer是轻量级的。

一、Introduction

(1) 水平框检测会造成边界框和目标的不一致性,尤其是当目标密集分布时。

(2)由于航空影像目标方向的多样性,使用有限方向的RRoIs很难与所有的目标都正确匹配,并且多方向的RRoIs还会造成计算的高度复杂性。

(3)空间变换、形变卷积和RoI池化常被用来处理几何变形,并且不涉及标注的旋转边界框。

(4)在航空影像中,提取具有旋转不变性的区域特征,对于消除区域特征和目标的不匹配问题是非常重要的。

(5)本研究的主要内容:

  • 提出了RoI Transformer的模块结构,通过标注RRoI的监督学习和基于位置敏感对齐的特征提取,旨在利用双阶段框架实现密集旋转目标的检测。
  • RRoI learner: 学习从HRoIs到RRoIs的转化
  • 旋转位置敏感的RoI Align: 从RRoI中提取位置不变性特征用于后续分类和回归。

(6)本研究的主要成果:

  • 提出了一个旋转RoI的监督学习器,可以将HRoIs转化到RRoIs。
  • 设计了一个旋转位置敏感的RoI Align模块用于空间不变性特征提取,可以保证高效率和低复杂度。
  • 在多个大型数据集上进行了旋转目标检测的测试,验证了RoI Transformer的有效性。

二、RoI Transformer

  • RRoI learner:位置敏感的RoI Align连接着一个五维的全连接层组成,用于HRoIs和地面真实旋转框的偏差回归。
  • RoI wrapping:对旋转区域的特征进行变形,是指具有旋转不变性。

1. RRoI Learner

  • 目的:从HRoIs的特征图上学习到旋转的RRoIs。
  • 方法:考虑到每个HHRoI是RRoI的外接矩形,可以使用全连接层从特征图Fi中推断出RRoIs的几何表示。
  • 回归目标:

 

其中,(xr, yr, wr,hr, θr)表示RRoI,(x*, y*, w*, h*, θ*)表示地面标注RRoI。并且需要将全局坐标系转化为局部坐标系。h为短边,w为长边,到h的旋转角在 [0,Π) 之间。

采用Smooth L1作为回归的损失函数,获得从HRoI到RRoI的参数。

2. RRoI Warping

  • 输入:尺寸为(H,W,K×K×C)的特征图D,RRoI(xr, yr, wr,hr, θr)
  • 输出:RRoI被RPS RoI Align分割成K×K块,并输出大小为(K×K×C)的特征图y

3. RoI Transformer for Oriented Object Detection

  • RRoI earner和RRoI Warping构成了RoI Transformer(RT),可以被用来取代普通的RoI wraping 操作
  • Polygons之间的IoU计算:RRoI和RGT面积的交并比,IoU大于0.5,则认为是True Positive。

  • 回归计算目标:采用相对偏差,即将坐标系统与RRoI绑定,而不是针对图像进行偏移计算

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo-v5

Yolo

YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出,因其高速和高精度而广受欢迎

### PanoFormer 模型简介 PanoFormer 是一种基于 Transformer 的架构设计,专门用于处理全景图像中的密集目标检测任务。该模型通过引入全局上下文感知机制来增强特征表示能力,从而更好地适应全景图像的特点[^1]。 全景图像是指覆盖整个场景视野的图像形式,其具有高分辨率、大范围视角等特点。然而,在这种类型的图像上执行密集目标检测是一项挑战性的任务,因为传统的卷积神经网络 (CNN) 很难捕捉到全局依赖关系以及应对尺度变化较大的对象。而 PanoFormer 利用了自注意力机制的优势,能够有效解决这些问题[^2]。 #### 架构特点 PanoFormer 主要由以下几个部分组成: 1. **多尺度特征提取模块**: 使用改进版的 Swin Transformer 或其他类似的分层结构作为骨干网路,以生成不同层次上的特征金字塔。 2. **全景分割头(Panoptic Segmentation Head)**: 结合实例级和语义级别的预测结果完成最终输出。此头部集成了动态卷积操作与位置编码技术,进一步提升了对于复杂背景下的小物体识别精度[^3]。 3. **交叉视图融合单元(Cross-View Fusion Unit, CVFU)**: 针对球面投影带来的几何失真问题提出了创新解决方案——即通过对相邻像素间的关系建模实现更精确的空间映射转换[^4]。 以下是简单的伪代码展示如何构建基本框架: ```python class PanoFormer(nn.Module): def __init__(self, backbone, neck=None, panoptic_head=None): super().__init__() self.backbone = backbone # e.g., SwinTransformer self.neck = neck # Optional feature fusion module self.panoptic_head = panoptic_head def forward(self, x): features = self.backbone(x) if self.neck is not None: features = self.neck(features) output = self.panoptic_head(features) return output ``` ### 实现细节 为了提高效率并减少计算成本,可以采用稀疏采样策略仅关注感兴趣区域(ROI),同时利用混合精度训练加速收敛过程[^5]。此外还可以探索不同的预处理方法比如鱼眼校正或者立方体贴图变换等方式优化输入数据质量以便于后续分析阶段获得更好的效果表现。
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李AI飞刀^_^

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值