15、论文阅读:使用反向多类Adaboost与深度学习的水下目标检测

前言

近年来,基于深度学习的方法在标准目标检测方面取得了令人瞩目的效果。然而,这些方法在应对水下目标检测时能力不足,原因在于以下挑战:(1) 在实际应用中,目标通常较小且图像模糊;(2) 水下数据集及实际应用中的图像伴随异质性噪声。为了解决这两个问题,我们首先提出了一种新颖的神经网络架构,即样本加权超网络 (SWIPENet),用于小目标检测。SWIPENet由高分辨率和语义丰富的超特征图组成,可以显著提高小目标检测的准确性。此外,我们提出了一种新颖的样本加权损失函数,用于对SWIPENet中的样本权重建模,并使用一种新颖的样本重加权算法——Invert Multi-Class Adaboost(IMA),以减少噪声对SWIPENet的影响。在URPC2017和URPC2018两个水下机器人抓取比赛数据集上的实验表明,提出的SWIPENet+IMA框架在检测准确性上优于多种先进的目标检测方法。

介绍

水下目标检测旨在定位和识别水下场景中的物体。由于在海洋学、水下导航 以及水产养殖等领域的广泛应用,这一研究持续受到关注。然而,由于复杂的水下环境和光照条件,水下目标检测仍然面临挑战。

基于深度学习的目标检测系统在各种应用中已展示出良好的性能,但在水下目标检测方面仍显不足。原因首先在于水下检测数据集稀缺,且现有数据集和实际应用中的目标通常较小。目前的基于深度学习的检测器无法有效检测这些小目标(见图1示例)。其次,现有水下数据集和实际应用中的图像往往杂乱不堪。在水下场景中,波长相关的吸收和散射会显著降低图像质量,导致诸如可见度下降、对比度弱以及颜色变化等问题,为检测任务带来了诸多挑战。
在这里插入图片描述

为了解决这些问题,我们提出了一种名为样本加权超网络 (SWIPENet) 的深度神经网络,通过充分利用多种超特征图来提升小目标检测的效果。此外,我们引入了一种样本加权损失函数,并结合反向多类Adaboost (IMA) 算法,减少噪声对SWIPENet特征学习的影响。

本文的其余部分结构如下:第二节简要介绍相关工作;第三节描述SWIPENet的结构和样本加权损失;第四节介绍反向多类Adaboost算法;第五节报告了该方法在URPC2017和URPC2018两个水下数据集上的实验结果。

相关工作

水下目标检测

水下目标检测技术多年来已广泛应用于海洋生态研究。Strachan等人 [5] 使用颜色和形状描述符来识别在传送带上被数字相机监控的鱼类。Spampinato等人 [6] 提出了一种视觉系统,用于实时视频中鱼类的检测、跟踪和计数,该系统包含视频纹理分析、目标检测和跟踪过程。然而,上述方法严重依赖于手工设计的特征,限制了特征的表示能力。Choi [7] 采用前景检测方法提取候选鱼类窗口,并使用卷积神经网络 (CNN) 对视野中的鱼类种类进行分类。Ravanbakhsh等人 [8] 比较了深度学习方法与方向梯度直方图 (HOG)+支持向量机 (SVM) 方法在珊瑚礁鱼类检测中的表现,实验结果显示深度学习方法在水下目标检测中的优势。Li等人 [9] 利用快速RCNN [10] 检测和识别鱼类种类;Li等人 [11] 则通过加速版RCNN提升了鱼类检测的速度。然而,这些快速RCNN方法使用来自神经网络最后一个卷积层的特征,这些特征较为粗糙,无法有效检测小目标。此外,水下目标检测数据集极度稀缺,这在一定程度上阻碍了水下目标检测技术的发展。最近,Jian等人 [13], [14] 提出了一个用于水下显著性检测的数据集,提供了对象级别的标注,可用于评估水下目标检测算法。

样本重新加权

样本重加权可用于解决数据噪声问题 。该方法通常为每个样本分配一个权重,然后优化加权后的训练损失。在基于训练损失的方法中,有两个研究方向。例如,焦点损失 [16] 和困难样本挖掘 [17] 侧重于训练损失较高的样本,而自放置学习 [18] 和课程学习 [19] 则鼓励学习损失较低的样本。这两种解决方案基于对训练数据的不同假设。第一种方法假设高损失样本是需要学习的,而第二种方法假设高损失样本易受干扰或属于噪声数据。

与基于训练损失的方法不同,多类Adaboost [20] 根据分类结果对样本进行重加权。该方法在迭代过程中通过增加误分类样本的权重来聚焦学习这些样本。在第四节中,我们提出了一种新颖的基于检测的样本重加权算法,即反向多类Adaboost (IMA),通过重加权来减少噪声的影响。

样本加权超级网络 (SWIPENET)

SWIPNeT 的架构

在这里插入图片描述
证据表明,卷积神经网络中的下采样操作生成了强语义特征,从而促进了许多分类任务的成功。然而,这对目标检测任务来说并不足够,因为目标检测不仅需要识别目标类别,还需要空间定位其位置。经过多次下采样操作后,深层的空间分辨率变得过于粗糙,无法有效检测小目标。

在本文中,我们提出了SWIPENet架构,其中包含多个高分辨率和语义丰富的超特征图,灵感来自反卷积单步检测器 (DSSD) 。DSSD通过多层上采样反卷积层扩展了快速下采样检测框架SSD ,以增加特征图的分辨率。在DSSD架构中,首先构建多个下采样卷积层以提取有利于目标分类的高语义特征图。然而,经过多次下采样操作后,特征图过于粗糙,难以提供足够的信息来精确定位小目标,因此,增加了多个上采样反卷积层和跳跃连接以恢复特征图的高分辨率但是,即使分辨率恢复了,下采样操作丢失的详细信息也无法完全恢复。
【超特征图(Hyper-Feature Map)是深度学习中用于描述高维特征表示的一种概念,尤其在图像处理和计算机视觉领域得到了广泛应用。超特征图结合了传统特征图(feature map)和更高级的特征信息,从而能够更好地表示复杂的特征和关系。】
【在卷积神经网络(CNN)中,特征图通常指每一层输出的二维或三维数据张量,这些特征图包含了输入数据在不同卷积核下提取的特征。而超特征图是一种扩展的特征表示,通常通过组合多层特征图或不同模型的特征图形成。其目的是在更高维度上捕捉数据的特征,以便在模型训练中更好地进行表达和识别。】
在这里插入图片描述

为改进DSSD,我们在网络中加入了膨胀卷积层 ,从而在不丢失支持目标定位的详细信息的情况下获得强语义特征。图2展示了我们提出的SWIPENet概览,其由多个卷积块(红色)、膨胀卷积块(绿色)、反卷积块(蓝色)和一种新颖的样本加权损失(灰色)组成

SWIPENet的前置层基于标准VGG16模型的架构(在Conv5_3层截断)。

与DSSD不同,我们在网络中添加了四个带有ReLU激活的膨胀卷积层,能够在不牺牲特征图分辨率的情况下获得大感受野(大感受野带来强语义特征)。

我们进一步使用反卷积上采样特征图,并通过跳跃连接将低层的细节传递到高层。最后,我们在反卷积层上构建了多个超特征图。

SWIPENet的预测部署在三个不同的反卷积层,即Deconv1_2、Deconv2_2和Deconv3_2(在图2中表示为Deconvx_2),这些层的尺寸逐渐增大,使我们能够预测不同尺度的目标。在这三个反卷积层的每个位置,我们定义了6个默认框,并使用3×3卷积核生成C + 1个类别得分(C表示目标类别数,1表示背景类别)以及4个相对于默认框原始形状的坐标偏移。

样本加权损失

我们提出了一种新颖的样本加权损失函数,用于在SWIPENet中建模样本权重。样本加权损失使SWIPENet能够专注于学习高权重样本,同时忽略低权重样本。该方法与一种新颖的样本重加权算法——反向多类Adaboost 协同工作,通过降低噪声样本的权重,减少其对SWIPENet的影响。

从技术角度来看,我们的样本加权损失 L 包括用于边界框分类的样本加权Softmax损失 Lcls 和用于边界框回归的样本加权Smooth L1损失Lreg(原始Softmax损失和Smooth L1损失的推导可参见文献 [25])

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

INVERT MULTI-CLASS ADABOOST (IMA)

IMA概述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

映射函数 f(.)

在这里插入图片描述
在这里插入图片描述

实验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值