概要
当前的目标检测模型在许多基准数据集上取得了良好的结果,在黑暗条件下检测目标仍然是一个巨大的挑战。为了解决这个问题,我们提出了一种金字塔增强网络(PENet),并将其与YOLOv3结合,构建了一个名为PE-YOLO的暗目标检测框架。
首先,PENet使用拉普拉斯金字塔将图像分解为不同分辨率的四个分量。
具体来说,我们提出了一种细节处理模块(DPM)来增强图像的细节,该模块由上下文分支和边缘分支组成。
此外,我们提出了一种低频增强滤波器(LEF)来捕获低频语义并防止高频噪声。
PE-YOLO采用端到端的联合训练方法,只使用正常的检测损失来简化训练过程。
我们在低光物体检测数据集ExDark上进行了实验,以证明我们的有效性。结果表明,与其他暗探测器和低光增强模型相比,PE-YOLO取得了先进的结果,在mAP和FPS方面分别达到了78.0%和53.6%,可以适应不同低光条件下的物体检测。
该代码可在以下网址获得https://github.com/XiangchenYin/PE-YOLO.
关键词:物体检测·低光感知·金字塔增强·
1 Introduction
近年来,卷积神经网络(CNN)的出现促进了目标检测的发展。已经提出了大量的检测器,基准数据集的性能正在得到提升令人愉快的结果[1,8,14,19]。然而,大多数现有的探测器都是在正常条件下在高质量图像中研究的。在真实环境中,经常有许多不良的照明条件,如夜间、暗光和曝光,因此图像质量的下降会影响探测器的性能。
视觉感知模型使自动系统能够理解环境,并为后续任务奠定基础,如轨迹规划,这需要一个强大的对象检测或语义分割模型。图1是暗物体检测的示例。可以发现,如果图像得到适当的增强,并根据环境条件恢复原始模糊对象的更多潜在信息,则对象检测模型适用于不同的低光条件,这也是模型实际应用中的一大挑战。
目前,已经提出了许多方法来解决暗场景中的鲁棒性问题。已经提出了许多低光增强模型[7,10,24,26]来恢复图像细节并减少不良照明条件的影响。然而,低光增强模型的结构复杂,不利于图像增强后探测器的实时性能。这些方法中的大多数都不能用检测器进行端到端训练,并且需要对成对的低光图像和正常图像进行监督学习。低光条件下的物体检测也可以被视为一个域自适应问题。**
一些研究人员[4,13,21]使用对抗学习将模型从正常光线转移到黑暗光线。但他们专注于匹配数据分布,忽视了低光图像中包含的潜在信息。在过去的几年里,一些研究人员[11,15]提出了使用可微分图像处理(DIP)模块来增强图像并以端到端的方式训练探测器的方法。然而,DIP是白平衡等传统方法,对图像的增强效果有限。
为了解决上述问题,我们提出了细节处理模块(DPM)和低频增强滤波器(LEF)来增强组件。
DPM由上下文分支和边缘分支组成,其中上下文分支通过捕获长程依赖关系全局增强组件,边缘分支增强组件的纹理。
LEF使用动态低通滤波器来获得低频语义并防止高频噪声,以丰富特征信息。我们在模型训练过程中只使用正常的检测损失来简化训练过程,而不需要图像的清晰地面真实性。
我们在低光目标检测数据集ExDark[16]中验证了我们的方法的有效性,结果表明,与其他暗探测器和低光增强模型相比,PE-YOLO取得了更先进的结果,在mAP中达到78.0%,在FPS中达到53.6%,可以适应黑暗条件下的目标检测。
我们的贡献可以概括如下:
-
我们构建了一个金字塔增强网络(PENet)来增强不同的低光图像。我们提出了一个细节处理模块(DPM)和一个低频增强滤波器(LEF)来增强组件。
-
通过将PENet与YOLOv3相结合,我们提出了一种端到端训练的暗目标检测框架PE-YOLO,以适应黑暗条件。在训练过程中,我们只使用正常的检测损失。
-
与其他暗探测器和低光增强模型相比,我们的PE-YOLO在ExDark数据集中取得了先进的结果,实现了令人愉快的准确性和速度。
2 相关工作
2.1 目标检测
目标检测模型分为三类:一阶段模型、两阶段模型和基于无锚的模型。
更快的RCNN[20]不是通过选择性搜索获得区域推荐,而是通过区域建议网络(RPN)获得。它使候选区域建议、特征提取、分类和回归能够在同一网络内进行端到端的训练。
Cai等人提出了级联RCNN[2],它级联了多个检测头,当前级别将细化前一级别的回归和分类结果。
YOLOv3[19]提出了新的特征提取网络DarkNet-53。YOLOv3受特征金字塔网络(FPN)的启发,采用多尺度特征融合。此外,最近出现了基于无锚的检测器[12,23],他们放弃了锚,将其改为基于关键点的检测。
2.2低光增强
低光增强任务的目标是通过**恢复图像细节和校正颜色失真来改善人类的视觉感知,并为物体检测等高级视觉任务提供高质量的图像。**Zhang等人[26]提出了Kind,它可以通过具有不同光照水平的成对图像进行训练,而不需要地面真实值。
Guo等人[9]提出了Zero DCE,它将低光增强任务转化为图像特定的曲线估计问题。
Lv等人[17]提出了一种多分支低光增强网络(MBLLEN),该网络提取不同级别的特征,并通过多分支融合生成输出图像。
Cui等人[5]提出了一种照明自适应变换器(IAT),通过动态查询学习构建端到端的变换器。
在低光增强模型恢复图像的细节后,探测器的效果得到了改善。
然而,大多数低光增强模型都很复杂,对探测器的实时性能有很大影响。
2.3不良条件下的目标检测
在不利条件下的目标检测对于机器人的鲁棒感知至关重要,并且已经出现了针对某些不利条件的鲁棒目标检测模型。
一些人通过无监督域自适应将检测器从源域转移到目标域[4,13,21],使模型适应恶劣环境。
Liu等人[15]提出了IA-YOLO,它自适应地增强每幅图像以提高检测性能。他们提出了一种用于恶劣天气的可微分图像处理(DIP)模块,并使用小型卷积神经网络(CNN-PP)来调整DIP的参数。
Kalwar等人[11]在IA-YOLO的基础上提出了GDIP-YOLO。GDIP提出了一种门控机制,允许多个DIP并行操作。
Qin等人[18]提出检测驱动增强网络(DENet)用于恶劣天气条件下的目标检测。
Cui等人[6]提出了一种用于暗目标检测的多任务自动编码变换(MAET),探索了光照转换背后的潜在空间。
3 Method
由于低光干扰,暗图像的可见度较差,这会影响探测器的性能。为了解决这个问题,我们提出了一种金字塔增强网络(PENet)和联合YOLOv3来构建一个暗目标检测框架PE-YOLO。PE-YOLO的框架概述如图2所示。
3.1 PE-YOLO概述
PENet通过拉普拉斯金字塔将图像分解为不同分辨率的分量。在PENet中,我们通过提出的细节处理模块(DPM)和低频增强滤波器(LEF)。增强了每个量表的组成部分
将图像I∈Rh×w×3定义为输入,我们使用高斯金字塔获得不同分辨率的子图像。
其中Down表示下采样,Gaussian表示高斯滤波器,高斯核的大小为5×5。每次高斯金字塔操作后,图像的宽度和高度减半,这意味着分辨率是原始的14。显然,高斯金字塔的下采样操作是不可逆的。为了在上采样后恢复原始的高分辨率图像,需要丢失的信息,丢失的信息构成了拉普拉斯金字塔的组成部分。拉普拉斯金字塔的定义是
其中Li是拉普拉斯金字塔的第i层,Gi表示拉普拉斯金字塔的第i层,Up表示双线性上采样操作。在重建图像时,我们只需要执行(2)的逆操作即可恢复高分辨率图像。
我们通过拉普拉斯金字塔获得了不同尺度的四个分量,如图3所示。我们发现拉普拉斯金字塔更注重自下而上的全局信息,而相反,它更注重局部细节。它们都是在图像下采样过程中丢失的信息,这也是我们PENet增强的对象。
我们通过细节处理模块(DPM)和低频增强滤波器(LEF)对组件进行增强,DPM和LEF的操作平行如下。我们将在下一节稍后介绍DPM和LEF。
通过分解和重建拉普拉斯金字塔,PENet可以变得轻量级和有效,这有助于提高PE-YOLO的性能。
3.2细节增强
我们提出了一个细节处理模块(DPM)来增强拉普拉斯金字塔中的组件,该模块分为上下文分支和边缘分支。DPM的详细信息如图4所示。上下文分支通过捕获远程依赖关系来获取上下文信息,并全局增强组件。边缘分支使用两个不同方向的Sobel算子来计算图像梯度,以获得边缘并增强组件的纹理。
上下文分支
我们使用残差块来处理在获得远程依赖关系之前和之后的特征,残差学习允许通过跳过连接传输丰富的低频信息。第一残差块将特征的通道从3更改为32,第二残差块将功能的通道从32更改为3。在场景中捕获全局信息已被证明对低级别视觉任务(如低光增强)是有益的。上下文分支的结构如图4所示,其定义为
其中ˆx=σ(F2(x))·x,F是核为3×3的卷积层,γ是Leaky ReLU,σ是Softmax函数。
边缘分支
Sobel算子是一种同时使用高斯滤波器和微分导数的离散算子。它可以通过计算梯度近似来找到边。我们在水平和垂直方向上使用Sobel算子通过卷积滤波器重新提取边缘信息,并使用残差来增强信息流。该过程表示为
其中Sobelh和Sobelw分别表示垂直和水平方向上的Sobel运算。
3.3 低频增强滤波器
在每个尺度分量中,低频分量拥有图像中大部分的语义信息,是检测器预测的关键信息。
为了丰富重建图像的语义,我们提出了低频增强滤波器(LEF)来捕获分量中的低频信息。LEF的详细信息如图5所示。
假设分量f∈Rh×w×3,我们首先通过卷积层将其转换为f∈Rh×w×32。我们使用动态低通滤波器来捕获低频信息,并使用平均池进行特征滤波,这只允许低于截止频率的信息通过。不同语义的低频阈值不同。考虑到Inception的多尺度结构[22],我们使用了大小为1×1、2×2、3×3、6×6的自适应平均池,并在每个尺度结束时使用上采样来恢复特征的原始大小。在平均池下形成低通滤波器。
其中fi是信道上分割的f的一部分,Up是双线性插值采样,βs是不同大小的s×s的自适应平均池。最后,在张量拼接每个{fi,i=1,2,3,4}后,我们将它们恢复为f∈Rh×w×3。
4 实验
4.1 数据集和实现细节
数据集:我们使用ExDark数据集来验证PE-YOLO的有效性。ExDark是一个用于物体检测和图像增强研究的低光物体检测数据集。它在10种不同的光照条件下收集了总共7363张图像,从极低的光照到黄昏,图像中有12个物体的边界框注释。我们将ExDark分为80%用于训练,20%用于测试,具体划分与IAT[5]和MAET[6]一致。
详细信息:所有经过训练和测试的图像都被调整为608×608,并且在训练过程中使用了随机裁剪、翻转和多尺度调整等数据增强方法。批量大小设置为8,优化器使用SGD,初始学习率设置为0.001,权重衰减设置为0.0005。训练PE-YOLO 30个迭代周期,并在单个RTX 3090 GPU上运行我们的模型。深度学习框架是Pytorch,我们使用mmdetection[3]来实现我们的模型。
评估:我们使用mAP和FPS来验证我们模型的有效性。mAP是检测模型中所有类别的平均AP,值越大表示模型的准确性越高。它被表示为
4.2实验结果
为了验证PE-YOLO的有效性,我们在ExDark数据集上进行了许多实验。首先,我们将PE-YOLO与其他低光增强模型进行了比较。由于低光增强模型缺乏检测能力,我们将使用与PE-YOLO相同的检测器对所有增强图像进行实验。我们将mAP的IoU阈值设置为0.5,性能比较如表1所示。我们发现,在YOLOv3之前直接使用低光增强模型并没有显著提高检测性能。我们的PE-YOLO在mAP上分别比MBLLEN和Zero DCE高1.2%和1.1%,达到了最佳效果。
我们可视化了不同弱光增强模型的检测结果,如图6所示。我们发现,尽管MBLLEN和Zero DCE可以显著提高图像的亮度,但它们也会放大图像中的噪声。PE-YOLO主要捕获低光图像中物体的潜在信息,同时抑制高频分量中的噪声,因此PE-YOLO具有更好的检测性能。
我们比较了PE-YOLO与其他暗探测器的性能,如表2所示。此外,我们可视化了暗探测器和PE-YOLO的检测结果,如图7所示,这清楚地表明PE-YOLO在物体检测方面更准确。与用LOL数据集预训练的DENet和IAT-YOLO相比,PE-YOLO在mAP中的值分别高出0.7%和0.2%,我们的PE-YLO在FPS上也几乎是最高的。上述数据表明,PE-YOLO更适合在黑暗条件下检测物体。
4.3消融研究
为了分析PE-YOLO中每个成分的有效性,我们进行了消融研究,结果如表3所示。
表2。PE-YOLO和暗探测器之间的性能比较。粗体数字在每列中得分最高。
采用上下文分支后,mAP中的PE-YOLO从76.4%增加到77.0%,表明捕获远程依赖关系对于增强是有效的。采用边缘分支后,mAP从77.0%提高到77.6%,表明边缘分支可以增强组件的纹理,增强增强图像的细节。采用LEF后,mAP从77.6%增加到78.0%,表明捕获低频分量有利于获得图像中的潜在信息。最后,我们的模型在mAP上从76.4%提高到78.0%,在FPS上仅下降了0.4。
表3。PE-YOLO的消融研究。“CB”表示上下文分支,“EB”表示边缘分支,LEF表示低频增强滤波器。
5结论
为了实现更稳健的暗目标检测,我们提出了一种金字塔增强网络(PENet),该网络可以执行细节恢复并捕获潜在信息。通过结合PENet和YOLOv3,我们构建了一个名为PE-YOLO的暗目标检测框架。我们首先使用拉普拉斯金字塔将图像分解为四个具有不同分辨率的分量,并提出了一个细节处理模块(DPM)和一个低频增强滤波器(LEF)用于分量增强。此外,PE-YOLO以端到端的方式进行训练,没有额外的损失功能。我们在ExDark数据集中进行了实验,实验结果表明,与低光增强模型和暗探测器相比,PE-YOLO取得了最佳结果,可以在暗条件下有效地探测物体。然而,我们的模型应该在更多的探测器上进行研究,并在保持轻量化的同时进一步提高性能。