前沿论文 Arxiv‘24 | 定向目标检测与增强小目标识别

最新推荐文章于 2025-06-02 16:17:10 发布

原创最新推荐文章于 2025-06-02 16:17:10 发布 · 1.5k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #目标跟踪 #人工智能 #知识图谱 #语言模型 #机器学习 #自然语言处理

论文信息

题目：Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images

高效航空影像中的定向目标检测与增强小目标识别

作者：Zhifei Shi，Zongyao Yin，Sheng Chang，Yi Xiao，XianChuan Yu

论文创新点

自适应尺度特征金字塔（ASFP）：作者提出了一种新的ASFP结构，通过利用骨干网络中的P2和P3层，结合SPDConv提取小目标丰富的特征，并引入OKM-CSP模块，专门用于小目标特征提取，显著提升了模型对小目标的检测能力。
C2f-小波变换卷积（C2f-WTC）：为了增强特征提取能力，作者引入了C2f-WTC模块，利用小波变换来扩展感受野，同时最小化参数增长。该模块通过多尺度特征提取，显著提升了模型在复杂图像中的检测精度。
C2f-Ghost动态卷积（C2f-GDC）：作者结合了GhostModule和C2f模块，提出了C2f-GDC结构，通过动态卷积和专家网络实现高效的特征处理，显著减少了参数数量，同时保持了较高的检测精度。
轻量级框架设计：作者提出的模型在保持高检测精度的同时，显著减少了参数量，达到了21.6M，相比具有23.3M参数的DecoupleNet，提供了更高效的架构设计，特别适用于资源受限的环境。

摘要

在航空影像中实现旋转边界框目标检测的计算效率与检测精度之间的平衡是一个重大挑战。尽管先前的研究致力于创建轻量级模型以提升计算性能和特征提取能力，但在遥感（RS）影像中检测小目标和多尺度目标时，这些网络的性能仍存在差距。为了应对这些挑战，作者提出了一种针对YOLOv8模型的创新增强，专门用于定向目标检测任务，并优化了计算资源有限的环境。该模型采用了基于小波变换的C2f模块来捕捉关联特征，并引入了自适应尺度特征金字塔（ASFP）模块，利用P2层细节信息。此外，GhostDynamicConv的引入显著增强了模型的轻量化特性，确保了航空影像分析的高效性。该方法的参数量为21.6M，相比具有23.3M参数的DecoupleNet，提供了更高效的架构设计，同时在DOTAv1.0数据集上展示了与DecoupleNet等领先方法相媲美的平均精度（mAP）。该模型的效率及其减少的参数量使其成为航空目标检测的强有力候选，特别是在资源受限的环境中。

关键词

旋转检测，小目标识别，轻量级模型，航空图像处理

II. 方法

为了实现增强模型检测小目标能力的同时保持低参数量，作者提出了网络结构，如图1所示。

A. 小目标增强金字塔

为了解决传统YOLO改进方法在检测低分辨率图像和小目标时的性能不佳问题，作者在YOLOv8的特征提取阶段设计了自适应尺度特征金字塔（ASFP）结构。ASFP结构旨在利用骨干网络中P2和P3层的优势。P2层以其高分辨率提供了丰富的特征细节，这对于小目标检测至关重要。相反，P3层在分辨率和上下文信息之间提供了平衡，适合捕捉中等尺度的特征。

为了避免引入P2检测层带来的计算负担，作者利用SPDConv从骨干网络的P2层中提取小目标丰富的特征。这些特征与P3检测层的特征合并，为OKM-CSP模块提供了一个全面的特征集，从而在保持对小目标敏感性的同时增强了计算效率。

作者发现原始CSP结构在减少计算负载和通过特征图分割与合并增强特征多样性方面具有有效性，但在小目标检测方面存在不足。为了解决这一问题，作者受Omni-Kernel模块（OKM）启发，引入了OKM-CSP模块，其中包含专门用于小目标特征提取的分支。利用参数来调节通道分配，输入特征图被分为okbranch和identity，通道比例分别为和。okbranch的输出进一步通过三个并行分支——全局、大尺度和小尺度——来细化小目标特征提取。

全局分支：该分支专注于提取具有大感受野的特征，以捕捉全局上下文信息。具体来说，它使用双域通道注意力模块（DCAM）和基于频率的空间注意力模块（FSAM）来扩展感受野，而不会显著增加参数数量。

大尺度分支：该分支旨在捕捉中等尺度的特征。它采用具有中等感受野大小的标准卷积层，确保全局上下文和局部细节之间的平衡。

小尺度分支：该分支专注于提取细粒度特征，这对于小目标检测至关重要。它使用具有小核尺寸的标准卷积层来捕捉详细的局部信息。

三个分支的输出随后通过卷积层与identity分支连接并合并，最终获得输出特征图，如图2所示。

假设输入特征图的通道数为，okbranch的通道数为，identity分支的通道数为。输入特征图被分为两部分：

和

其中是输入到OmniKernel模块的特征图，直接连接到下一层。参数控制分割比例。为了获得更好的性能，作者选择。

接下来，OmniKernel模块接收并输出特征图。最后，OmniKernel模块的输出与连接并通过卷积层进行特征融合，得到最终的输出特征图

通过引入OKM-CSP模块，作者可以增强模型在多尺度上提取特征的能力，从而提高小目标的检测精度。

B. C2f与下一代卷积

C2f模块是YOLOv8模型中的关键组件，旨在增强特征提取过程。该模块通过在网络的不同阶段进行部分连接，实现了更集成和全面的特征表示。这种方法在目标检测中特别有利，因为它允许从网络的不同层次更详细和细致地整合特征。

然而，C2f模块在检测小目标方面存在显著局限性，这需要进一步研究。模块的局部卷积操作可能不足以从需要更广泛感受野的复杂图像中提取特征。此外，C2f模块的参数量随着卷积核大小的增加呈二次增长，这引发了关于过参数化的担忧。这一问题可能会对模型的计算效率和可扩展性产生不利影响，突显了在详细特征表示和计算资源约束之间取得平衡的必要性。

1. C2f-小波变换卷积（C2f-WTC）

YOLOv8中的C2f模块在目标检测中至关重要，但由于局部卷积操作，特别是在处理复杂图像时，特征提取存在局限性。为了解决这些挑战，作者引入了C2f-小波变换卷积（C2f-WTC），利用小波变换来增强感受野，同时最小化参数增长。

利用Haar小波的简单性，作者将尺寸为的图像分解为四个子带：（低频）、、和（高频）。变换过程专注于在不同尺度上提取相关特征。Haar小波变换可以表示为：

其中表示当前分解级别。通过递归地将Haar小波变换应用于，作者创建了一个小波变换的级联，有效地捕捉输入图像的低频和高频成分，从而促进详细的特征提取。

在WTConv方法中，输入通过小波技术进行变换，然后在每个频率子带上应用具有小核的卷积。该过程表示为：

其中IWT表示逆小波变换，将变换后的频率成分重新组合回空间域。该技术使模型能够有效地整合多尺度特征，增强其对精细和粗糙细节的敏感性。

在C2f-WTC中，瓶颈结构起到了双重作用：它简化了特征处理流程并控制了计算开销。本质上，瓶颈通过初始的卷积将特征图缩小到其最显著的方面。然后，这些浓缩的表示通过卷积进一步细化，然后再扩展回原始维度。通过战略性地减少和随后扩展特征图，WTC模块能够在减少计算负载的情况下保持高水平的特征区分度，这对于航空影像中准确检测小目标至关重要。

C2f-WTC的主要优势在于其参数数量相对于感受野大小的对数增长，与传统方法的二次增长形成对比。这种设计在提高检测精度和参数效率方面进行了优化，能够以经济的计算足迹处理复杂图像，从而提升模型的定向目标检测能力。

2. C2f-Ghost动态卷积（C2f-GDC）

鉴于C2f模块的计算和复杂性约束，作者集成了GhostModule以在最小额外计算的情况下增强模型的容量。GhostModule采用动态卷积和专家网络进行特征处理，通过动态系数加权求和实现增强的表达能力和效率。

设为输入特征图，为第个专家的权重，为相应的动态系数。动态卷积可以表示为：

其中是专家的数量，动态系数生成为，其中是对输入进行池化操作以减少其空间维度，是一个小型两层前馈网络，将池化向量转换为系数向量，通过softmax函数确保所有系数的总和为1。

结合C2f模块和GhostModule，作者提出了C2f-GDC结构。在该结构中，每个瓶颈块中的卷积操作被动态卷积取代。设和分别为第一个和第二个动态卷积的输出，C2f-GDC模块可以表示为：

其中是残差连接的输入，Conv是第二个卷积层。

在C2f-GDC中，每个动态卷积引入了个额外的卷积核，但这些核共享相同的输入和输出维度，因此参数的增加与成正比，与核大小无关。此外，由于动态系数的计算成本相对较低，整体计算负载（FLOPs）的增加有限。

III. 实验

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【`保证100%免费`】