Underwater Small Target Detection Based on YOLOX ...阅读笔记

原文链接:JMSE | Free Full-Text | Underwater Small Target Detection Based on YOLOX Combined with MobileViT and Double Coordinate Attention

题目:Underwater Small Target Detection Based on YOLOX Combined with MobileViT and Double Coordinate Attention

中文翻译:基于YOLOX结合MobileViT和双坐标注意的水下小目标检测

Abstract  

  水下成像环境复杂,传统的目标检测算法在水下环境中的应用效果尚不理想。因此,基于邻域的水下光学图像目标检测仍然是计算机视觉领域中最具挑战性的任务之一。由于现有的目标检测算法主要侧重于提高检测精度、提高算法复杂度和计算能力,因此基于邻域的技术在水下小目标、色散和畸变源(如沉积物和颗粒)等方面往往存在不足。然而,过度提取深层特征会导致小目标丢失,降低检测精度。此外,大多数水下光学图像目标检测是由水下无人平台进行的,由于水下无人平台具有移动视觉处理平台,计算能力有限,对算法的轻量化要求很高。为了在不影响目标检测精度的前提下满足水下无人平台的轻量化要求,提出了一种基于移动视觉转换器(MobileViT)和YOLOX的水下目标检测模型,并设计了一种新的坐标注意(CA)机制,命名为双CA (DCA)机制。该模型利用MobileViT作为算法骨干网,提高了算法的全局特征提取能力,减少了算法参数的数量。双CA (DCA)机制可以使用最少的参数提高浅层特征的提取和检测精度,即使对于困难的目标也是如此。在水下机器人专业竞赛2020 (URPC2020)数据集中验证的研究表明,该方法的平均准确率为72.00%。此外,YOLOX能够将模型参数有效压缩49.6%,实现了水下光学图像检测精度和参数数量之间的平衡。与现有算法相比,所提算法能更好地在水下无人平台上运行。

Keywords 

  YOLOX;水下目标探测;MobileVIT;协调的关注

1. Introduction

  科学技术的快速进步导致了人类行为的转变,并激发了以牺牲陆基资源为代价开发水生资源的兴趣[1]。由于地球70%的面积被水覆盖,水下资源丰富,可以推动未来科学技术的进步,水下勘探作为地下资源利用的先导,有足够的时间取得重大进展。水下光学图像检测是现代水下探测的基石,已成功应用于海洋探测的许多领域。然而,水下探测受到几个不妨碍陆地探测的问题的限制。水下成像环境的复杂性导致的问题,如位置分散,色彩偏差,模糊,仅举几例。此外,确定水下物体的目标体积也带来了额外的挑战。这些因素使得传统的目标检测技术无法满足现代工业的需求。除了这些问题之外,水下探测和水下无人平台运输的有限使用导致水下设备和车辆的存储限制,并且陆地算法所基于的典型大型模型难以在水下环境中运输。因此,开发一种适合水下无人平台需求的低参数、高精度水下光学图像检测方法势在必行。

  现有的目标检测算法主要分为两种类型:两阶段[2-4]和一阶段[5-8]。前者检测精度较高,但结构复杂;后者检测精度较低,但结构轻巧。为了保证水下无人平台的携带,我们在一阶算法中选择了YOLOX[9]。YOLOX在继承CSPDarknet53[10]和YOLO系列算法的特征金字塔网络(feature pyramid network, FPN)[11]的基础上,首次在YOLO算法中应用了无帧检测,降低了YOLOX的计算复杂度。然而,由于CSPDarknet的特征提取复杂,对水下目标的检测并不友好。此外,水下无人平台对算法的存储量有更高的要求,但现有的轻量级算法特征提取能力不足。因此,我们选择MobileVIT[12]轻量级模型作为算法的骨干网。此外,为了更好地提取目标的浅层信息,我们提出了一种新的基于CA[13]注意力的注意力机制DCA,并将其应用于YOLOX,使算法获得更高的准确率。实验表明,URPC2020数据的准确率达到72.00%,参数数量减少49.6%。

  在此背景下,我们提出本文的主要贡献:

(1)在主流的目标检测方法中,我们选择了YOLOX算法作为基本结构。通过在YOLOX中使用MobileViT作为骨干网,我们进一步提高了算法的全局特征提取能力,同时减少了参数的数量。

(2)针对水下目标体积小、分布分散、成像模糊等特点,在原有CA机制基础上设计了一种DCA机制。通过提高算法模型的浅层特征提取能力,增强了算法模型对难目标数据的提取能力。

(3)对URPC2020数据集的评估结果表明,与基线方法相比,我们的网络模型在减少参数数量的同时具有更好的精度。因此,我们的方法不仅可行,而且优于原有的基线法。

2. Related Work

2.1. Object Detection

  卷积神经网络(convolutional neural networks, CNN)在水下目标检测领域的研究已经得到了广泛的应用[14],现有的基于cnn的目标检测算法主要分为单阶段算法和两阶段算法。另一方面,两阶段算法提取一系列候选区域并对其进行分类以进行目标检测。两阶段算法包括R-CNN[2]、Fast R-CNN[3]、FasterR-CNN[4]等。两阶段算法具有较高的精度,但其检测效率低于一阶段算法。单阶段算法使用一阶网络完成分类和定位任务,大大提高了检测效率,在准确率和算法量之间取得了很好的平衡。一些第一阶段算法包括Single-Shot MultiBox Detector (SSD)[15]和YOLO (You Only Look Once)[5-8]系列。虽然YOLO系列算法在精度和复杂度上取得了很好的平衡,但YOLO系列算法对小目标的检测效果较差,召回率较低,影响了YOLO算法在水下的应用。因此,研究人员开展了大量基于YOLO系列算法的研究。

  Chen等[16]提出了一种基于改进YOLOv4的水下目标识别网络。Lei等[17]将YOLOv5应用于水下目标检测。这些任务将YOLO系列集成到水下目标检测中,Chen等[18]。提出了一种不考虑水下探测硬件限制的基于多尺度特征融合的水下目标检测轻量化算法。

  水下目标经常分散,导致小目标丢失,特征

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值