Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection o

最新推荐文章于 2025-07-29 21:31:10 发布

Mrwei_418

最新推荐文章于 2025-07-29 21:31:10 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

文章标签：目标检测人工智能计算机视觉

本文链接：https://blog.youkuaiyun.com/Mrwei_418/article/details/131742011

文章提出了一种新的全局上下文增强自适应稀疏卷积网络（CEASC），用于解决无人机图像中的低延迟目标检测问题。CEASC通过CE-GN层补偿稀疏卷积造成的上下文损失，并使用自适应多层遮罩策略优化掩模比例，提高精度和效率。在VisDrone和UAVDT基准测试中，CEASC显示了减少计算成本和加速推理的能力，同时保持了竞争力的检测性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images阅读笔记

文章地址

Code

Abstract

在资源有限的无人驾驶飞行器（UAV）平台上，对无人机图像进行低延迟的目标检测是一项重要但具有挑战性的任务。本文研究了基于稀疏卷积优化检测头，这在平衡精度和效率方面已被证明是有效的。然而，它在面对前景尺度变化时，存在对微小对象的上下文信息整合不足以及对遮罩比例控制不当的问题。为解决上述问题，我们提出了一种全新的全局上下文增强自适应稀疏卷积网络（CEASC）。首先，通过用全局上下文特征替换基于稀疏采样特征的统计数据，它开发了一个上下文增强的组归一化（CE-GN）层，然后设计了一种自适应多层遮罩策略，以在不同尺度下生成最优遮罩比例，以紧凑地覆盖前景，从而提升了精度和效率。在两个主要的基准测试，即VisDrone和UAVDT上，通过大量实验结果显示，当将CEASC插入到典型的最先进的检测框架（例如RetinaNet和GFL V1）中时，它显著减少了GFLOPs，并加速了推理过程，同时保持了竞争性的性能。代码可在https://github.com/Cuogeihong/CEASC获得。

Introduction

过往的解决平衡精度和效率的时候，大多是都集中在降低骨干网络的复杂性上。它们未能考虑到被最新探测器广泛使用的重型检测头。（检测头的通道数特别高）
稀疏卷积（Sparse convolution）：which limit computations by only operating convolutions on sparsely sampled regions or channels via learnable masks. （但其高度依赖于mask是否选择有意义的区域，结果高度依赖于有意义的区域的选择，因为稀疏卷积中学习掩码的焦点区域容易定位在前景内）
但由于无人机图像，小目标居多，并且前景区域的尺度随着飞行高度的变化而变化。如果mask比例不足，那么就会在背景上消耗很多不必要的计算，往往会降低效率和准确性。
DynamicHead [31] and QueryDet [42] 确实在检测头上应用了稀疏卷积，但是它们的主要目标是在额外的特征图被联合用于提高通用目标检测的性能时，抵消增加的计算成本。遵循的是传统的方式，设定固定的掩模比例or只关注前景，因此还远未达到无人机探测器所需的精度和效率之间的折中。因此，如何利用稀疏卷积来促进无人机的轻量级检测仍然是一个未解决的问题。

本文提出了CEASC检测器

CESC：上下文增强的稀疏卷积

由一个带有上下文增强组归一化（CE-GN）层的残差结构组成。

由于CE-GN特别保留了一组整体特征，并应用它们的统计数据进行归一化，它补偿了由稀疏卷积引起的上下文丧失，并稳定了前景区域的分布，从而避免了精度的急剧下降

AAM:Multilayer masking scheme

通过在特征金字塔网络（FPN）的不同级别最小化一个精心设计的损失，分别估计最优的掩膜比例，平衡了检测精度和效率。

贡献：

提出了一种基于稀疏卷积的新颖的检测头优化方法，即CEASC，用于无人机的高效目标检测
引入了一种上下文增强的稀疏卷积层和一个自适应的多层掩膜方案来优化掩膜比例，从而在检测精度和效率之间达到最优的平衡。
对两个主要的无人机图像公共基准进行了广泛的评估，将CEASC集成到各种最先进的检测器（如RetinaNet和GFL V1）中，显著降低了它们的计算成本，同时保持了有竞争力的准确性。

Method

网络结构图

Context-Enhanced Sparse Convolution

Sparse Convolution

由于已往检测器的Head非常消耗计算资源，但由于无人机平台资源的限制，以及无人机航拍图像中前景所占比例特别小，大多计算都浪费到了背景之上，所以如果仅通过计算前景区域，会节省非常多的计算资源。

所以，我们采用了最近提出的稀疏卷积来构建网络。

具体步骤：

给一个特征图 $\mathbf{X}_{i}\ \in\ \mathbb{R}^{B\times C\times H\times W}$ (FPN $i - t h$ )
SC采用了a mask network consising of a shared knernel $\mathbf{W}_{mask}\ \in\ \mathbb{R}^{C\times 1\times 3\times 3}$ (Batch_size、 channel 、 height 、 width)
特征图经过SC卷积，生成特征图 $\mathbf{S}_{i}\in\mathbb{R}^{B\times1\times H\times W}$ ，然后使用以下公式生成 $\mathbf{H}_{i}\,~\in~\{0,1\}^{B\times\mathbf{1}\times H\times W}$

$\mathbf{H}_{i}={\left\{\begin{array}{l l}{\sigma{\Bigl(}{\frac{\mathrm{S}_{i}+g_{1}-g_{2}}{\tau}}{\Bigr)}>0.5,}&{{\mathrm{For~training}}}\\ {\mathrm{S}_{i}>0,}&{{\mathrm{For~inference}}}\end{array}\right.}$

通过上述步骤，会生成一个mask特征图，在推理过程中，只有mask=1的位置涉及卷积，从而降低了整体的计算成本。

其中 $H_{i}$ 的稀疏性是由一个mask ratio控制的，一般是由人工设定的，通常设置为0.9。

Context Enhancement

由于[44]说明目标对象周围的背景，有利于目标检测，然后SC只在前景进行目标检测，放弃了具有有用信息的背景，可能破坏整体的准确性。尤其是无人机图像中普遍存在的微小物体的情况下。

之前有提过使用线性插值方法恢复周围的上下文信息，但是效果并不好。

所以本文提出了CESC模块。

对特征图 $X_{i}$ 进行PW卷积，生成一个全局特征信息， $G_{i}$ 。
我们使用 $G_{i}$ 的平均值和方差对特征图 $X_{i}$ 进行归一化，从而弥补缺失的上下文信息。

$\mathrm{~\cal~{\cal~{\cal~}}~}F_{i,j}\,\equiv\,w\,\times\,\frac{L_{i,j}\,-\,m e a n{[\mathrm{G}_{i}]}}{s t d{[\mathrm{G}_{i}]}}\,+\,b$

where j indicates the j-th SparseConvolution-GN-ReLU layer

特别的是，由于CESC是叠加使用的，其中特征图 $X_{i}$ 只有一小部分被SC卷积，所以 $G_{i}$ 不会消耗太多的计算量。

这里为什么使用PW卷积，生成一个全局特征信息， $G_{i}$ 。

为了进一步减轻SC中的信息丢失，在训练期间，在使用SC的同时，还是用了正常的卷积，生成特征图特征图 $C_{ij}$ ，通过特征图 $C_{ij}$ 来加强特征图 $F_{ij}$ 。

$\mathcal{L}_{n o r m}=\frac{1}{4L}\sum_{i=1}^{L}\sum_{j=1}^{4}||\mathbf{C}_{i,j}\times\mathbf{H}_{i}\ -\ \mathbf{F}_{i,j}||^{2}$

最后还采用了residual structure

第一行不采用residual structure，第二行直接将F := F + X 第三行F := F + G.

Adaptive Multi-layer Masking

之前将，mask ratio比例通常是手工设计的，但是航拍图像前景波动严重，由于对前景区域的覆盖率不足，固定比例容易导致计算量显著增加或精度下降。所以提出AMM模块来控制mask ratio。

对于FPN不同的layer，我们是分开计算mask ratio的，不同layer具有不同的mask ratio

以下步骤是在FPN的第i-th layer

首先根据真实标签计算最佳的mask ratio。

$P_{i}=\frac{P_{O S}(C_{i})}{N_{U u m e l(C_{i})}}$ 其实，也就是相当于前景pixels/所有pixels

随后设计一个损失函数

$\mathcal{L}_{a m m}=\frac{1}{L}\sum_{i}\Bigl(\frac{P o s(\mathrm{H}_{i})}{N u m e l(\mathrm{H}_{i})}-P_{i}\Bigr)^{2}$

在训练过程中，使得mask ratio尽可能向 $P_{i}$ 靠拢。

论文：

名称	期刊	时间
SlimYOLOv3: Narrower, Faster and Better for Real-Time UAV Applications	IEEE/CVF	2019
Focus-and-Detect: A Small Object Detection Framework for Aerial Images	Signal Processing: Image Communication	2022
Density Map Guided Object Detection in Aerial Images		2020
UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone Imagery（已读）		2022
Decoupled Feature Pyramid Learning for Multi-scale Object Detection in Low-altitude Remote Sensing Images（重要！！！）	IEEE	2023
QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection（稀疏卷积）	CVPR	2022
Learning efficient object detection models with knowledge distillation(知识蒸馏)	NeruIPS	2017
Focal and Global Knowledge Distillation for Detectors(知识蒸馏)	CVPR	2022
稀疏卷积
Spatially Adaptive Computation Time for Residual Networks
SECOND: Sparsely Embedded Convolutional Detection