ABSTRACT
针对YOLOv5无人机高空拍摄场景中存在大量小而密集目标和复杂背景噪声干扰的问题,提出了一种改进的YOLOv5无人机拍摄场景目标检测算法。首先提出了一种特征增强块(FEBlock),通过卷积生成不同感受野特征的自适应权值,将主要权值分配给浅层特征映射,提高小目标特征提取能力。然后将FEBlock与空间金字塔池(Spatial Pyramid Pooling, SPP)相结合,生成增强空间金字塔池(Enhanced Spatial Pyramid Pooling, ESPP),对每个最大池化的结果进行特征增强;并通过对融合的上下文特征加权,生成包含多尺度上下文信息的新特征,使其具有更好的特征表征能力。其次,提出自特征扩展板(SCEP),通过压缩、非线性映射和自身模块的扩展实现特征信息的融合和扩展,进一步提高网络的特征提取能力,并通过与自特征扩展板的拼接生成新的空间金字塔池(ESPP- s)。最后,在YOLOv5网络模型的大、中、小检测层中加入一个较浅的特征映射作为检测层,提高网络对中、远距离目标的检测性能。在VisDrone2021数据集上进行实验,结果表明改进的YOLOv5模型将mAP0.5提高4.6%,mAP0.5:0.95提高2.9%,精度提高2.7%。在1024 × 1024的输入分辨率下训练的模型mAP0.5达到56.8%。实验表明,改进的YOLOv5模型可以提高无人机捕获场景的目标检测精度。
I. INTRODUCTION
随着无人机技术的不断发展,配备摄像头的无人机或通用无人机已迅速部署到各种应用中,包括农业、航空摄影、公共安全、生态保护等。因此,对这些平台收集的可视化数据的直观理解的要求越来越高。基于深度学习的目标检测技术在无人机上的应用越来越广泛。然而,无人机飞行的高度高,拍摄到的图像中有大量的小型物体,以及小型密集物体之间复杂的背景噪声干扰,导致检测精度[1]显著降低。这给无人机捕获场景中的目标检测带来了困难,因此设计一种提高图像中小目标检测精度的方法非常重要。
近年来,深度学习技术发展迅速,许多基于卷积神经网络(CNN)的目标检测算法被提出并用于检测无人机图像中的目标。主要存在两种类型的目标检测算法:基于两阶段和基于单阶段的方法。基于两阶段的目标检测方法也被称为候选区域检测方法。首先根据图像提取候选框,然后根据候选区域进行二次校正得到测点结果。检测精度高,但检测速度慢。
这类算法首先是RCNN (Region CNN)[2],然后是Fast-RCNN (Fast Region- based CNN)[3]和Faster-RCNN (Faster Region- bas