SOD-YOLOv8 (无人机)
《SRE - YOLOv8: An Improved UAV Object Detection Model Utilizing Swin Transformer and RE - FPN》
论文地址(2024-8-8)
- 主要内容:提出SRE - YOLOv8模型,利用Swin Transformer和RE - FPN结构改进YOLOv8,以解决无人机图像小目标检测难题。经实验验证,该模型在VisDrone2021数据集上精度提升显著。
- 具体改进:在骨干网络引入优化的Swin Transformer模块,增强全局上下文信息保留和特征提取能力;将原FPN结构替换为RE - FPN,通过RFA模块和ECA注意力机制,减少空间信息损失,增强特征融合;添加SOD层,融合多尺度特征,提升对小目标的检测能力;在检测头采用Dynamic Head,结合多种注意力机制,增强对复杂背景下低分辨率目标的识别能力。
SOD-YOLOv5n (冬枣)
《A lightweight SOD - YOLOv5n model - based winter jujube detection and counting method deployed on Android》
论文地址(2024)
- 主要内容:提出基于YOLOv5n的轻量级小目标检测模型SOD - YOLOv5n,用于冬枣检测与计数,并部署于安卓设备。通过实验对比多种模型,验证其在复杂果园环境下的有效性,为冬枣产量预估提供技术支持。
- 具体改进:用SPD - Conv替换步卷积和池化层,增强对小目标和低分辨率图像的检测能力;利用CARAFE模块优化上采样算法,实现自适应核重组;在颈部使用GSConv技术,降低模型大小并保持精度;采用float16量化技术减小模型文件大小,便于安卓部署。
SRE-YOLOv8(交通)
《SOD - YOLOv8 - Enhancing YOLOv8 for Small Object Detection in Traffic Scenes》
论文地址(2024-6-17)
- 主要内容:提出SOD - YOLOv8模型,针对交通场景中小目标检测难题,通过改进特征融合、引入注意力机制和新的损失函数,提升检测精度。经实验对比,该模型在多个指标上优于其他模型,在复杂交通场景中表现可靠。
- 具体改进:受GFPN启发改进多路径融合,简化结构并增强特征融合效果,添加第四检测层利用高分辨率空间信息;在C2f模块嵌入EMA注意力机制,重新分配特征权重,增强对小目标特征的提取;使用PIoU替换CIoU,优化边界框回归,提高检测精度和收敛速度。
- 多尺度特征融合升级:GFPN 与第四检测层结合,强化小目标的空间细节捕捉。
- 轻量化注意力机制:EMA 模块在不显著增加参数的前提下,提升特征表达能力。
- 边界框回归优化:PIoU 损失函数直接针对小目标几何偏差,提升定位精度。
二、核心改进方法
1. 增强型特征金字塔网络(GFPN)
-
设计思路:
传统 YOLOv8 的 FPN 融合能力有限,难以保留浅层小目标的空间细节。SOD-YOLOv8 借鉴 Efficient RepGFPN(来自 DAMO-YOLO),通过以下方式优化:- 重参数化与跨尺度连接:简化 GFPN 结构,引入跳层连接(如 l o g 2 ( n ) log_2(n) log2(n)-link 和 dense-link),增强不同层级特征的信息流,避免深层特征下采样时的细节丢失。
- 新增第四检测层:在颈部添加针对高分辨率特征(如 320×320 尺度)的检测头,专门捕捉小目标的空间细节,增强了浅层细节保留。
-
效果:通过融合浅层高分辨率特征与深层语义特征,小目标定位精度提升显著。
2. C2f-EMA 模块:集成高效多尺度注意力
-
结构设计:
在颈部的 C2f 模块中嵌入 EMA(Efficient Multi-Scale Attention) 注意力机制,可以优先处理对小目标重要的特征
其核心包括:- 特征分组与并行处理:将输入特征分为 G 组,通过 1×1 卷积和 3×3 卷积并行提取局部与多尺度空间信息。
- 跨空间学习:通过矩阵点积操作捕捉全局像素依赖关系,生成 2D 高斯注意力图,强化对小目标区域的关注。
- 轻量化设计:相比传统注意力模块(如 CBAM、SE),EMA 避免维度缩减,减少参数开销。
-
作用:动态调整不同通道和空间位置的特征权重,增强小目标特征的表达能力。
3. PIoU 损失函数:优化边界框回归
-
问题痛点:
传统 CIoU 损失在小目标边界框回归时,对中心点距离和宽高比例的惩罚不够直接,易导致定位偏差。 -
PIoU(Powerful IoU)设计:
- 惩罚项优化:引入预测框与真实框四角点的欧氏距离惩罚,直接度量几何相似性,公式如下:
L P I o U = 1 − I o U − e − P 2 , P = 1 4 ( d w 1 + d w 2 w g t + d h 1 + d h 2 h g t ) L_{PIoU} = 1 - IoU - e^{-P^2}, \quad P = \frac{1}{4}\left(\frac{dw1+dw2}{w_{gt}} + \frac{dh1+dh2}{h_{gt}}\right) LPIoU=1−IoU−e−P2,P=41(wgtdw1+dw2+hgtdh1+dh2)
其中 d w 1 , d w 2 , d h 1 , d h 2 dw1, dw2, dh1, dh2 dw1,dw2,dh1,dh2为边界框宽高差, w g t , h g t w_{gt}, h_{gt} wgt,hgt 为真实框宽高。 - 非单调注意力机制:通过 u ( λ q ) = 3 λ q ⋅ e − ( λ q ) 2 u(\lambda q) = 3\lambda q \cdot e^{-(\lambda q)^2} u(λq)=3λq⋅e−(λq)2动态聚焦中等质量锚框,加速收敛。
- 惩罚项优化:引入预测框与真实框四角点的欧氏距离惩罚,直接度量几何相似性,公式如下:
-
优势:相比 CIoU,PIoU 对小目标边界框的微小偏移更敏感,定位精度提升约 1.1%~2.6%。
4.高分辨率检测层
YOLOv8-SOD-DLK(细胞)
《YOLO - SOD - DLK: A YOLOv8 - based Network for Astrocytes Detection in Immunofluorescence Photographs》
论文地址
- 主要内容:构建基于YOLOv8的YOLO - SOD - DLK网络,用于免疫荧光照片中星形胶质细胞检测。实验表明该网络能有效量化炎症因子阳性表达程度,避免人工误差。
- 具体改进:在Neck结构中构建160×160大小的特征图并添加小检测头,提高对小目标的检测精度;嵌入D - LKA模块,融合不同层次特征,增强对小而不规则形状物体的感知能力;设计C2f - DLK模块替换C2f模块,提升网络性能 。
154

被折叠的 条评论
为什么被折叠?



