前沿论文 Arxiv‘24 | 定向目标检测与增强小目标识别

论文信息

题目:Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images

高效航空影像中的定向目标检测与增强小目标识别

作者:Zhifei Shi,Zongyao Yin,Sheng Chang,Yi Xiao,XianChuan Yu

论文创新点

  1. 自适应尺度特征金字塔(ASFP):作者提出了一种新的ASFP结构,通过利用骨干网络中的P2和P3层,结合SPDConv提取小目标丰富的特征,并引入OKM-CSP模块,专门用于小目标特征提取,显著提升了模型对小目标的检测能力。

  2. C2f-小波变换卷积(C2f-WTC):为了增强特征提取能力,作者引入了C2f-WTC模块,利用小波变换来扩展感受野,同时最小化参数增长。该模块通过多尺度特征提取,显著提升了模型在复杂图像中的检测精度。

  3. C2f-Ghost动态卷积(C2f-GDC):作者结合了GhostModule和C2f模块,提出了C2f-GDC结构,通过动态卷积和专家网络实现高效的特征处理,显著减少了参数数量,同时保持了较高的检测精度。

  4. 轻量级框架设计:作者提出的模型在保持高检测精度的同时,显著减少了参数量,达到了21.6M,相比具有23.3M参数的DecoupleNet,提供了更高效的架构设计,特别适用于资源受限的环境。

摘要

在航空影像中实现旋转边界框目标检测的计算效率与检测精度之间的平衡是一个重大挑战。尽管先前的研究致力于创建轻量级模型以提升计算性能和特征提取能力,但在遥感(RS)影像中检测小目标和多尺度目标时,这些网络的性能仍存在差距。为了应对这些挑战,作者提出了一种针对YOLOv8模型的创新增强,专门用于定向目标检测任务,并优化了计算资源有限的环境。该模型采用了基于小波变换的C2f模块来捕捉关联特征,并引入了自适应尺度特征金字塔(ASFP)模块,利用P2层细节信息。此外,GhostDynamicConv的引入显著增强了模型的轻量化特性,确保了航空影像分析的高效性。该方法的参数量为21.6M,相比具有23.3M参数的DecoupleNet,提供了更高效的架构设计,同时在DOTAv1.0数据集上展示了与DecoupleNet等领先方法相媲美的平均精度(mAP)。该模型的效率及其减少的参数量使其成为航空目标检测的强有力候选,特别是在资源受限的环境中。

关键词

旋转检测,小目标识别,轻量级模型,航空图像处理

II. 方法

为了实现增强模型检测小目标能力的同时保持低参数量,作者提出了网络结构,如图1所示。

A. 小目标增强金字塔

为了解决传统YOLO改进方法在检测低分辨率图像和小目标时的性能不佳问题,作者在YOLOv8的特征提取阶段设计了自适应尺度特征金字塔(ASFP)结构。ASFP结构旨在利用骨干网络中P2和P3层的优势。P2层以其高分辨率提供了丰富的特征细节,这对于小目标检测至关重要。相反,P3层在分辨率和上下文信息之间提供了平衡,适合捕捉中等尺度的特征。

为了避免引入P2检测层带来的计算负担,作者利用SPDConv从骨干网络的P2层中提取小目标丰富的特征。这些特征与P3检测层的特征合并,为OKM-CSP模块提供了一个全面的特征集,从而在保持对小目标敏感性的同时增强了计算效率。

作者发现原始CSP结构在减少计算负载和通过特征图分割与合并增强特征多样性方面具有有效性,但在小目标检测方面存在不足。为了解决这一问题,作者受Omni-Kernel模块(OKM)启发,引入了OKM-CSP模块,其中包含专门用于小目标特征提取的分支。利用参数来调节通道分配,输入特征图被分为okbranch和identity,通道比例分别为和。okbranch的输出进一步通过三个并行分支——全局、大尺度和小尺度——来细化小目标特征提取。

全局分支:该分支专注于提取具有大感受野的特征,以捕捉全局上下文信息。具体来说,它使用双域通道注意力模块(DCAM)和基于频率的空间注意力模块(FSAM)来扩展感受野,而不会显著增加参数数量。

大尺度分支:该分支旨在捕捉中等尺度的特征。它采用具有中等感受野大小的标准卷积层,确保全局上下文和局部细节之间的平衡。

小尺度分支:该分支专注于提取细粒度特征,这对于小目标检测至关重要。它使用具有小核尺寸的标准卷积层来捕捉详细的局部信息。

三个分支的输出随后通过卷积层与identity分支连接并合并,最终获得输出特征图,如图2所示。

假设输入特征图的通道数为,okbranch的通道数为,identity分支的通道数为。输入特征图被分为两部分:

其中是输入到OmniKernel模块的特征图,直接连接到下一层。参数控制分割比例。为了获得更好的性能,作者选择。

接下来,OmniKernel模块接收并输出特征图。最后,OmniKernel模块的输出与连接并通过卷积层进行特征融合,得到最终的输出特征图

通过引入OKM-CSP模块,作者可以增强模型在多尺度上提取特征的能力,从而提高小目标的检测精度。

B. C2f与下一代卷积

C2f模块是YOLOv8模型中的关键组件,旨在增强特征提取过程。该模块通过在网络的不同阶段进行部分连接,实现了更集成和全面的特征表示。这种方法在目标检测中特别有利,因为它允许从网络的不同层次更详细和细致地整合特征。

然而,C2f模块在检测小目标方面存在显著局限性,这需要进一步研究。模块的局部卷积操作可能不足以从需要更广泛感受野的复杂图像中提取特征。此外,C2f模块的参数量随着卷积核大小的增加呈二次增长,这引发了关于过参数化的担忧。这一问题可能会对模型的计算效率和可扩展性产生不利影响,突显了在详细特征表示和计算资源约束之间取得平衡的必要性。

1. C2f-小波变换卷积(C2f-WTC)

YOLOv8中的C2f模块在目标检测中至关重要,但由于局部卷积操作,特别是在处理复杂图像时,特征提取存在局限性。为了解决这些挑战,作者引入了C2f-小波变换卷积(C2f-WTC),利用小波变换来增强感受野,同时最小化参数增长。

利用Haar小波的简单性,作者将尺寸为的图像分解为四个子带:(低频)、、和(高频)。变换过程专注于在不同尺度上提取相关特征。Haar小波变换可以表示为:

其中表示当前分解级别。通过递归地将Haar小波变换应用于,作者创建了一个小波变换的级联,有效地捕捉输入图像的低频和高频成分,从而促进详细的特征提取。

在WTConv方法中,输入通过小波技术进行变换,然后在每个频率子带上应用具有小核的卷积。该过程表示为:

其中IWT表示逆小波变换,将变换后的频率成分重新组合回空间域。该技术使模型能够有效地整合多尺度特征,增强其对精细和粗糙细节的敏感性。

在C2f-WTC中,瓶颈结构起到了双重作用:它简化了特征处理流程并控制了计算开销。本质上,瓶颈通过初始的卷积将特征图缩小到其最显著的方面。然后,这些浓缩的表示通过卷积进一步细化,然后再扩展回原始维度。通过战略性地减少和随后扩展特征图,WTC模块能够在减少计算负载的情况下保持高水平的特征区分度,这对于航空影像中准确检测小目标至关重要。

C2f-WTC的主要优势在于其参数数量相对于感受野大小的对数增长,与传统方法的二次增长形成对比。这种设计在提高检测精度和参数效率方面进行了优化,能够以经济的计算足迹处理复杂图像,从而提升模型的定向目标检测能力。

2. C2f-Ghost动态卷积(C2f-GDC)

鉴于C2f模块的计算和复杂性约束,作者集成了GhostModule以在最小额外计算的情况下增强模型的容量。GhostModule采用动态卷积和专家网络进行特征处理,通过动态系数加权求和实现增强的表达能力和效率。

设为输入特征图,为第个专家的权重,为相应的动态系数。动态卷积可以表示为:

其中是专家的数量,动态系数生成为,其中是对输入进行池化操作以减少其空间维度,是一个小型两层前馈网络,将池化向量转换为系数向量,通过softmax函数确保所有系数的总和为1。

结合C2f模块和GhostModule,作者提出了C2f-GDC结构。在该结构中,每个瓶颈块中的卷积操作被动态卷积取代。设和分别为第一个和第二个动态卷积的输出,C2f-GDC模块可以表示为:

其中是残差连接的输入,Conv是第二个卷积层。

在C2f-GDC中,每个动态卷积引入了个额外的卷积核,但这些核共享相同的输入和输出维度,因此参数的增加与成正比,与核大小无关。此外,由于动态系数的计算成本相对较低,整体计算负载(FLOPs)的增加有限。

III. 实验


如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

<think>好的,我现在需要处理用户关于P2小目标检测层的结构图及其神经网络架构设计的查询。首先,用户提到参考了引用[3],其中讨论了YOLOv7改进中增加小目标检测层的内容。用户可能对YOLOv7中的P2层结构感兴趣,特别是其设计原理和实现方式。 首先,我需要回忆YOLO系列模型中特征金字塔网络(FPN)的结构。通常,YOLO使用FPN和PAN(Path Aggregation Network)来处理多尺度目标检测。P2层通常指更高分辨率的特征图,用于检测小目标,因为高分辨率特征图保留了更多细节信息。 接下来,用户想要结构图,可能需要了解P2层在整体网络中的位置,以及它如何其他层连接。根据引用[1]中的BiFPN,改进的FPN通过双向连接和自适应特征调整,这可能P2层的设计有关。需要确认YOLOv7是否采用了BiFPN或其他改进的FPN结构。 另外,引用[3]提到小目标检测的挑战,可能P2层通过增加额外的检测层或调整特征融合方式来增强小目标检测能力。例如,YOLOv7可能在原有检测层基础上,添加更高分辨率的P2层,并结合更密集的锚点框。 结构图方面,用户可能需要一个示意图展示P2层如何从主干网络提取特征,经过哪些上采样或下采样操作,以及如何其它层级(如P3、P4)进行特征融合。可能涉及卷积层、上采样层、连接操作等组件。 在架构设计上,P2层可能采用更浅的网络层以保留细节,同时通过跳跃连接或跨层连接融合深层语义信息。自适应特征调整,如加权融合(类似BiFPN),可能用于优化不同层次特征的贡献。 需要验证这些信息是否准确,可能需要查阅YOLOv7的具体实现细节。如果用户提供的引用[3]中提到了具体结构,应依据其描述。否则,可能需要基于常见的YOLO结构和FPN改进进行合理推断。 最后,用户可能希望了解如何在实际中实现P2层,包括代码层面的修改或结构图的绘制。因此,回答需要涵盖结构描述、设计原理,并建议参考具体论文或开源代码以获得更详细的信息。</think>### P2小目标检测层的结构设计原理 #### 一、结构图概述 P2小目标检测层通常位于特征金字塔网络(FPPN/BiFPN)的顶层,对应高分辨率特征图(如输入图像的1/4尺度)。其典型结构包含以下模块: $$ \begin{array}{ccc} \text{主干网络输出} & \rightarrow & \text{1×1卷积降维} \\ & \downarrow & \\ \text{上采样层} & \leftrightarrow & \text{跨尺度连接} \\ & \downarrow & \\ \text{深度可分离卷积} & \rightarrow & \text{特征融合模块} \\ & \downarrow & \\ \text{检测头(3×3卷积)} & \rightarrow & \text{预测输出} \end{array} $$ #### 二、核心设计原理 1. **高分辨率保留** P2层直接处理$1/4$下采样特征图(如$320×320$输入对应$80×80$网格),相比传统检测层(如YOLOv3的$13×13$网格),保留更多细节纹理[^3]。 2. **双向特征融合** 通过BiFPN机制(引用[1])实现跨尺度连接: - 自上而下路径传递语义信息 - 自下而上路径传递位置信息 - 使用可学习的权重进行特征加权融合 3. **自适应锚框设计** 针对小目标的锚框尺寸优化: - 典型锚框尺寸:$8×8$, $12×12$, $16×16$ - 长宽比增加$0.2:1$, $0.5:1$等小目标专用比例 #### 三、关键实现细节 1. **特征增强模块** 采用CSPNet(跨阶段部分网络)结构: ```python class CSPBlock(nn.Module): def __init__(self, c1, c2): super().__init__() self.conv1 = Conv(c1, c2//2, 1) self.conv2 = Conv(c1, c2//2, 1) self.conv3 = Conv(c2, c2, 1) def forward(self, x): x1 = self.conv1(x) x2 = self.conv2(x) return self.conv3(torch.cat([x1, x2], dim=1)) ``` 2. **损失函数优化** 使用动态焦点损失(Dynamic Focal Loss): $$ \mathcal{L}_{cls} = -\alpha_t(1-p_t)^\gamma \log(p_t) $$ 其中$\gamma$随训练动态调整,增强小目标分类的关注。 #### 四、典型应用场景 1. 卫星图像中的车辆检测 2. 医学影像的细胞识别 3. 工业质检的微小缺陷检测
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值