Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection o

文章提出了一种新的全局上下文增强自适应稀疏卷积网络(CEASC),用于解决无人机图像中的低延迟目标检测问题。CEASC通过CE-GN层补偿稀疏卷积造成的上下文损失,并使用自适应多层遮罩策略优化掩模比例,提高精度和效率。在VisDrone和UAVDT基准测试中,CEASC显示了减少计算成本和加速推理的能力,同时保持了竞争力的检测性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images阅读笔记

文章地址

Code

Abstract

在资源有限的无人驾驶飞行器(UAV)平台上,对无人机图像进行低延迟的目标检测是一项重要但具有挑战性的任务。本文研究了基于稀疏卷积优化检测头,这在平衡精度和效率方面已被证明是有效的。然而,它在面对前景尺度变化时,存在对微小对象的上下文信息整合不足以及对遮罩比例控制不当的问题。为解决上述问题,我们提出了一种全新的全局上下文增强自适应稀疏卷积网络(CEASC)。首先,通过用全局上下文特征替换基于稀疏采样特征的统计数据,它开发了一个上下文增强的组归一化(CE-GN)层,然后设计了一种自适应多层遮罩策略,以在不同尺度下生成最优遮罩比例,以紧凑地覆盖前景,从而提升了精度和效率。在两个主要的基准测试,即VisDrone和UAVDT上,通过大量实验结果显示,当将CEASC插入到典型的最先进的检测框架(例如RetinaNet和GFL V1)中时,它显著减少了GFLOPs,并加速了推理过程,同时保持了竞争性的性能。代码可在https://github.com/Cuogeihong/CEASC获得。

Introduction

  • 过往的解决平衡精度和效率的时候,大多是都集中在降低骨干网络的复杂性上。它们未能考虑到被最新探测器广泛使用的重型检测头。(检测头的通道数特别高)
  • 稀疏卷积(Sparse convolution):which limit computations by only operating convolutions on sparsely sampled regions or channels via learnable masks. (但其高度依赖于mask是否选择有意义的区域,结果高度依赖于有意义的区域的选择,因为稀疏卷积中学习掩码的焦点区域容易定位在前景内)
  • 但由于无人机图像,小目标居多,并且前景区域的尺度随着飞行高度的变化而变化。如果mask比例不足,那么就会在背景上消耗很多不必要的计算,往往会降低效率和准确性。
  • DynamicHead [31] and QueryDet [42] 确实在检测头上应用了稀疏卷积,但是它们的主要目标是在额外的特征图被联合用于提高通用目标检测的性能时,抵消增加的计算成本。遵循的是传统的方式,设定固定的掩模比例or只关注前景,因此还远未达到无人机探测器所需的精度和效率之间的折中。因此,如何利用稀疏卷积来促进无人机的轻量级检测仍然是一个未解决的问题。

本文提出了CEASC检测器

  • CESC:上下文增强的稀疏卷积

由一个带有上下文增强组归一化(CE-GN)层的残差结构组成。

由于CE-GN特别保留了一组整体特征,并应用它们的统计数据进行归一化,它补偿了由稀疏卷积引起的上下文丧失,并稳定了前景区域的分布,从而避免了精度的急剧下降

  • AAM:Multilayer masking scheme

通过在特征金字塔网络(FPN)的不同级别最小化一个精心设计的损失,分别估计最优的掩膜比例,平衡了检测精度和效率。

贡献:

  • 提出了一种基于稀疏卷积的新颖的检测头优化方法,即CEASC,用于无人机的高效目标检测
  • 引入了一种上下文增强的稀疏卷积层和一个自适应的多层掩膜方案来优化掩膜比例,从而在检测精度和效率之间达到最优的平衡。
  • 对两个主要的无人机图像公共基准进行了广泛的评估,将CEASC集成到各种最先进的检测器(如RetinaNet和GFL V1)中,显著降低了它们的计算成本,同时保持了有竞争力的准确性。

Method

  • 网络结构图

image-20230715162126062

Context-Enhanced Sparse Convolution

  • Sparse Convolution

由于已往检测器的Head非常消耗计算资源,但由于无人机平台资源的限制,以及无人机航拍图像中前景所占比例特别小,大多计算都浪费到了背景之上,所以如果仅通过计算前景区域,会节省非常多的计算资源。

所以,我们采用了最近提出的稀疏卷积来构建网络。

具体步骤:

  • 给一个特征图 X i   ∈   R B × C × H × W \mathbf{X}_{i}\ \in\ \mathbb{R}^{B\times C\times H\times W} Xi  RB×C×H×W (FPN i − t h i-th ith )
  • SC采用了a mask network consising of a shared knernel W m a s k   ∈   R C × 1 × 3 × 3 \mathbf{W}_{mask}\ \in\ \mathbb{R}^{C\times 1\times 3\times 3} Wmask  RC×1×3×3 (Batch_size、 channel 、 height 、 width)
  • 特征图经过SC卷积,生成特征图 S i ∈ R B × 1 × H × W \mathbf{S}_{i}\in\mathbb{R}^{B\times1\times H\times W} SiRB×1×H×W ,然后使用以下公式生成 H i     ∈   { 0 , 1 } B × 1 × H × W \mathbf{H}_{i}\,~\in~\{0,1\}^{B\times\mathbf{1}\times H\times W} Hi  {0,1}B×1×H×W

H i = { σ ( S i + g 1 − g 2 τ ) > 0.5 , F o r   t r a i n i n g S i > 0 , F o r   i n f e r e n c e \mathbf{H}_{i}={\left\{\begin{array}{l l}{\sigma{\Bigl(}{\frac{\mathrm{S}_{i}+g_{1}-g_{2}}{\tau}}{\Bigr)}>0.5,}&{{\mathrm{For~training}}}\\ {\mathrm{S}_{i}>0,}&{{\mathrm{For~inference}}}\end{array}\right.} Hi={σ(τSi+g1g2)>0.5,Si>0,For trainingFor inference

image-20230715165421593

通过上述步骤,会生成一个mask特征图,在推理过程中,只有mask=1的位置涉及卷积,从而降低了整体的计算成本。

其中 H i H_{i} Hi的稀疏性是由一个mask ratio控制的,一般是由人工设定的,通常设置为0.9。

  • Context Enhancement

由于[44]说明目标对象周围的背景,有利于目标检测,然后SC只在前景进行目标检测,放弃了具有有用信息的背景,可能破坏整体的准确性。尤其是无人机图像中普遍存在的微小物体的情况下。

之前有提过使用线性插值方法恢复周围的上下文信息,但是效果并不好。

image-20230715172711123

所以本文提出了CESC模块。

  • 对特征图 X i X_{i} Xi进行PW卷积,生成一个全局特征信息, G i G_{i} Gi

  • 我们使用 G i G_{i} Gi的平均值和方差对特征图 X i X_{i} Xi进行归一化,从而弥补缺失的上下文信息。

      F i , j   ≡   w   ×   L i , j   −   m e a n [ G i ] s t d [ G i ]   +   b \mathrm{~\cal~{\cal~{\cal~}}~}F_{i,j}\,\equiv\,w\,\times\,\frac{L_{i,j}\,-\,m e a n{[\mathrm{G}_{i}]}}{s t d{[\mathrm{G}_{i}]}}\,+\,b      Fi,jw×std[Gi]Li,jmean[Gi]+b

where j indicates the j-th SparseConvolution-GN-ReLU layer

特别的是,由于CESC是叠加使用的,其中特征图 X i X_{i} Xi只有一小部分被SC卷积,所以 G i G_{i} Gi不会消耗太多的计算量。

这里为什么使用PW卷积,生成一个全局特征信息, G i G_{i} Gi

image-20230715172442698

为了进一步减轻SC中的信息丢失,在训练期间,在使用SC的同时,还是用了正常的卷积,生成特征图特征图 C i j C_{ij} Cij,通过特征图 C i j C_{ij} Cij来加强特征图 F i j F_{ij} Fij

L n o r m = 1 4 L ∑ i = 1 L ∑ j = 1 4 ∣ ∣ C i , j × H i   −   F i , j ∣ ∣ 2 \mathcal{L}_{n o r m}=\frac{1}{4L}\sum_{i=1}^{L}\sum_{j=1}^{4}||\mathbf{C}_{i,j}\times\mathbf{H}_{i}\ -\ \mathbf{F}_{i,j}||^{2} Lnorm=4L1i=1Lj=14∣∣Ci,j×Hi  Fi,j2

最后还采用了residual structure

image-20230715171700347

  • 第一行不采用residual structure,第二行直接将F := F + X 第三行F := F + G.

image-20230715172540072

Adaptive Multi-layer Masking

之前将,mask ratio比例通常是手工设计的,但是航拍图像前景波动严重,由于对前景区域的覆盖率不足,固定比例容易导致计算量显著增加或精度下降。所以提出AMM模块来控制mask ratio。

对于FPN不同的layer,我们是分开计算mask ratio的,不同layer具有不同的mask ratio

image-20230715172457797

以下步骤是在FPN的第i-th layer

  • 首先根据真实标签计算最佳的mask ratio。

P i = P O S ( C i ) N U u m e l ( C i ) P_{i}=\frac{P_{O S}(C_{i})}{N_{U u m e l(C_{i})}} Pi=NUumel(Ci)POS(Ci)其实,也就是相当于前景pixels/所有pixels

  • 随后设计一个损失函数

L a m m = 1 L ∑ i ( P o s ( H i ) N u m e l ( H i ) − P i ) 2 \mathcal{L}_{a m m}=\frac{1}{L}\sum_{i}\Bigl(\frac{P o s(\mathrm{H}_{i})}{N u m e l(\mathrm{H}_{i})}-P_{i}\Bigr)^{2} Lamm=L1i(Numel(Hi)Pos(Hi)Pi)2

image-20230715172336429

在训练过程中,使得mask ratio尽可能向 P i P_{i} Pi靠拢。

论文:

名称期刊时间
SlimYOLOv3: Narrower, Faster and Better for Real-Time UAV ApplicationsIEEE/CVF2019
Focus-and-Detect: A Small Object Detection Framework for Aerial ImagesSignal Processing: Image Communication2022
Density Map Guided Object Detection in Aerial Images2020
UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone Imagery(已读)2022
Decoupled Feature Pyramid Learning for Multi-scale Object Detection in Low-altitude Remote Sensing Images(重要!!!)IEEE2023
QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection(稀疏卷积)CVPR2022
Learning efficient object detection models with knowledge distillation(知识蒸馏)NeruIPS2017
Focal and Global Knowledge Distillation for Detectors(知识蒸馏)CVPR2022
稀疏卷积
Spatially Adaptive Computation Time for Residual Networks
SECOND: Sparsely Embedded Convolutional Detection
### Global-Local Self-Adaptive Network for Drone-View Object Detection计算机视觉领域,无人机视角的目标检测面临着诸多挑战,例如复杂的背景干扰、多尺度目标以及光照变化等问题。为了应对这些挑战,研究人员提出了多种创新性的方法,其中全局-局部自适应网络(Global-Local Self-Adaptive Network, GLSAN)是一种专门针对无人机视角设计的有效解决方案。 GLSAN的核心思想在于通过融合全局上下文信息和局部特征细节来提升模型的鲁棒性和准确性。具体而言,该网络架构通常由以下几个关键模块组成: #### 1. **全局上下文提取** 全局上下文模块旨在捕获图像中的高层次语义信息,这对于理解场景的整体结构至关重要。这一部分可以通过引入注意力机制或空间金字塔池化层实现[^1]。例如,在某些轻量级卷积神经网络的设计中,采用SENet(Squeeze-and-Excitation Networks)作为全局上下文增强单元,能够显著提高对复杂环境的理解能力。 #### 2. **局部特征细化** 局部特征细化模块专注于捕捉目标对象的具体形状和纹理特性。这一步骤对于区分相似类别尤其重要。常见的做法是在骨干网络的不同阶段应用不同大小的感受野,从而获取多层次的局部特征表示[^2]。此外,还可以利用FPN(Feature Pyramid Network)进一步加强跨尺度特征交互。 #### 3. **自适应融合策略** 为了更好地平衡全局与局部信息之间的贡献比例,GLSAN采用了动态权重调整的方法来进行特征融合。这种方法允许网络根据输入数据的特点自动学习最优组合方式,而不是固定地分配权值[^3]。这种灵活性使得GLSAN能够在多样化的应用场景下保持较高的性能表现。 以下是基于PyTorch框架的一个简化版GLSAN实现示例: ```python import torch.nn as nn class GLSAN(nn.Module): def __init__(self): super(GLSAN, self).__init__() # Backbone network (e.g., ResNet or MobileNet) self.backbone = ... # Global context extraction module self.global_context = SEBlock() # Squeeze-and-Excitation Block # Local feature refinement module self.local_refinement = FPN() # Feature Pyramid Network # Adaptive fusion layer self.fusion_layer = AdaptiveFusion() def forward(self, x): features = self.backbone(x) global_features = self.global_context(features) local_features = self.local_refinement(features) fused_output = self.fusion_layer(global_features, local_features) return fused_output ``` 上述代码片段展示了如何构建一个基本的GLSAN模型。需要注意的是,实际部署时可能还需要考虑更多工程优化措施,比如量化感知训练或者剪枝技术,以便满足实时性要求的同时降低计算成本。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值