本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。
原文链接:跨场景泛化王者 | UniDet-D在未训练沙尘暴/雨雾混合条件下仍保持85%检测精度
精简阅读版本
本文主要解决了什么问题
-
1. 恶劣天气条件下的目标检测难题:在现实场景中,由于雨、雾、雪、低光照等恶劣天气影响,图像质量严重下降,导致现有目标检测模型性能不稳定。
-
2. 现有方法泛化能力差:大多数已有方法是针对特定天气类型(如雨天或雾天)设计的,难以适应多种退化条件,缺乏统一框架处理多样化天气。
-
3. 频率信息利用不充分:传统CNN模型更关注低频信号,忽视了高频细节信息,导致在复杂退化条件下特征表示不够鲁棒。
本文的核心创新是什么
-
1. 提出统一的端到端目标检测与图像恢复框架 UniDet-D:
-
• 首次在一个网络中联合处理多种恶劣天气条件下的目标检测和图像增强任务,适用于雨、雪、雾、低光照甚至沙尘暴等多种未知天气。
-
-
2. 动态频谱注意力机制(Dynamic Spectral Attention):
-
• 包括多谱感知模块(MSP)和自适应频率滤波模块(AF²),通过离散余弦变换(DCT)分析频率分量,并自适应选择信息丰富的频率,抑制冗余噪声。
-
-
3. 提升模型泛化能力:
-
• 在未见过的天气条件下(如沙尘暴和雨雾混合)也表现出良好性能,突破了以往方法对训练数据的依赖性限制。
-
结果相较于以前的方法有哪些提升
-
1. 在多个合成恶劣天气数据集上取得SOTA性能:
-
• 在VRain-test、VSnow-test、VFog-test等数据集上均优于当前主流方法,如RDMNet、TogetherNet、“Restore+Detect”等,在mAP指标上有稳定提升(如比RDMNet高1.08%~1.85%)。
-
-
2. 在真实世界低光照数据(ExDark)上的零样本泛化表现优异:
-
• 相较于RDMNet,UniDet-D提升了1.85 mAP,并在汽车和公交车类别上分别提高了3.42和2.92 AP。
-
-
3. 对未知天气条件具有良好的适应能力:
-
• 在未参与训练的沙尘暴和雨雾混合天气下仍能实现准确检测,显著优于现有模型。
-
局限性总结
-
1. 频率选择机制依赖DCT计算开销:
-
• 虽然引入了Gumbel-Softmax和可学习开关来优化频率选择过程,但整体架构中的DCT操作可能带来额外计算负担,影响实时性。
-
-
2. 模型泛化能力受限于训练数据多样性:
-
• 尽管在未见过的天气条件下有较好表现,但其泛化能力仍依赖于训练时涵盖的退化模式广度。
-
-
3. 未明确评估极端复杂天气组合下的性能:
-
• 如暴雨+浓雾+低光叠加情况下的检测效果未被系统验证,未来可进一步探索更复杂的实际场景。
-
深入阅读版本
导读
现实世界中的目标检测是一项具有挑战性的任务,由于雨、雾、雪、低光照等不良天气条件,所捕获的图像/视频经常受到复杂的退化。尽管已经进行了大量前期工作,但大多数现有方法都是针对特定类型的不良天气设计的,存在泛化能力差、在处理各种图像退化时未能充分利用视觉特征等问题。基于对不良天气图像中关键视觉细节如何丢失的理论分析,作者设计了UniDet-D,这是一个统一的框架,旨在解决在各种不良天气条件下进行目标检测的挑战,并在单个网络中实现目标检测和图像恢复。具体而言,所提出的UniDet-D包含一个动态频谱注意力机制,该机制自适应地强调信息丰富的频谱分量,同时抑制不相关的分量,从而在各种退化类型中实现更鲁棒和更具判别力的特征表示。大量实验表明,UniDet-D在不同类型的不良天气退化中实现了优越的检测精度。此外,UniDet-D对未见的不良天气条件(如沙尘暴和雨雾混合物)表现出优越的泛化能力,突出了其在实际应用中的巨大潜力。
1 引言
目标检测是环境感知的关键环节,旨在准确识别和定位图像或视频中的目标物体[2], [3]。它作为路径规划、运动预测、决策和控制等关键任务的基础,在自动驾驶场景中发挥着重要作用[4]–[6]。尽管深度学习显著推动了目标检测的发展[7],但雨、雾、雪和低光照等恶劣天气条件会严重降低图像质量,对现有主流模型的泛化能力和准确性构成持续挑战。这种性能退化最终损害了智能视觉系统在实际部署中的稳定性和功能鲁棒性。因此,研究在恶劣天气条件下对低质量图像进行有效的目标检测是一个具有研究意义的重要领域。
针对退化图像目标检测的可靠性提升,已开展多项研究。这些模型可大致分为三大主要方法:图像自适应、领域自适应和多任务学习。图像自适应方法专注于通过自适应提升退化图像质量来增强检测性能。早期工作[8]–[10]采用固定参数滤波器,而后续方法[11], [12]引入动态、上下文感知的增强技术以处理复杂的退化模式。领域自适应方法[13], [14]被应用于恶劣天气下的目标检测,旨在学习高质量(源域)和低质量(目标域)图像之间的领域不变特征。此外,多任务学习方法[15], [16]采用多个子网络来处理图像恢复和目标检测等任务,其中部分特征提取层在子网络之间共享。
图片
图1. 所提出的UniDet-D是一个统一的端到端模型,能够在单个框架内处理多种恶劣天气条件。它在包括雨、雪、雾、低光照、沙尘暴和雨雾条件在内的各种恶劣天气条件下,始终优于 Baseline 检测器YOLOXs[1](最后两种条件在训练期间未出现)。注意:边界框按物体类别进行颜色编码:红色代表车辆,深蓝色代表行人,浅蓝色代表自行车。
尽管上述方法取得了一定进展,但仍存在一些重大挑战尚未解决。具体而言,现有方法面临的局限性总结如下:(i) 从框架设计角度来看,这些方法专门针对个别天气退化进行设计[17][18],缺乏一个统一的端到端解决方案,无法同时处理雨、雪、雾以及其他复杂退化等多样化场景。(ii) 在表征学习方面,现有模型未能充分利用退化图像中的信息信号。具体而言,它们往往倾向于低频或固定频率信号[19][20]。这种频率偏差常常导致信息丰富的高频细节被低估利用。因此,这些局限性导致在不同退化条件下目标检测器性能欠佳。
受上述观察结果的启发并为克服这些局限性,我们提出了一种面向多种退化图像的统一目标检测模型UniDet-D,该模型基于动态光谱注意力机制实现了退化感知设计。如图1所示的实际场景示例表明,UniDet-D能够在多种恶劣天气条件下(即雨天、雪天、雾天、低光、沙尘暴以及雨雾混合)实现统一的目标检测。此外,UniDet-D通过单端到端模型同时整合了目标检测与图像恢复功能,无需针对不同退化场景分别训练模型。这种统一设计显著提升了泛化性能与计算效率,使UniDet-D成为面向实际应用的低质量视觉理解任务的实用且可扩展的解决方案。
关于特征表示,作者从频域角度对退化图像进行分析,以捕捉在不利条件下丢失的关键视觉细节。鉴于图像由多种频率分量组成,且低频和高频分量都包含有用信号,而卷积神经网络(CNN)对低频信号比高频信号更敏感。为了补偿特征学习中高频信息利用不足的问题,作者设计了一种动态频谱感知选择策略。具体而言,作者提出了一个多频谱感知机制(MSP),该机制能够自适应地捕获信息丰富的频率分量,以增强退化条件下的特征表示。所提出的MSP模块通过离散余弦变换(DCT)处理提取图像的频率分量[21]。最重要的是,与依赖手动设计频率选择[19]的先前方法不同,本文引入了一种自适应频率滤波(AF^2)方法,使模型能够自动适应信息丰富的频谱分量。通过大量实验与最先进(SOTA)检测器的比较,验证了作者方法的有效性,它在各种退化类型和恶劣天气条件下均实现了卓越的检测精度。
综上所述,本文的贡献如下:
-
• 据作者所知,作者首次提出了一种适用于多种退化场景的统一物体解释模型,称为UniDet-D,该模型能够在广泛的恶劣天气条件下,如雨、雪、雾、低光照和沙尘暴等,联合执行目标检测和图像恢复。UniDet-D为不同类型的恶劣天气下的目标检测和恢复提供了一种通用的范式,因此代表了退化视觉理解领域的重要进展。
-
• 基于频率利用的理论洞察,提出了一种动态频谱感知选择策略,包括一个MSP模块用于深入分析和捕获退化图像中的频率分量,以及一个AF^2模块自适应地强调重要频率并抑制无关频率。该设计增强了特征表示的判别能力,并实现了在未知退化情况下的自适应目标检测。
-
• 大量实验验证了UniDetD在各种退化场景下的有效性,与最近的SOTA检测器相比。此外,UniDet-D在未经训练的恶劣天气条件下,如沙尘暴和雨雾混合天气,也展现出强大的检测能力。这些结果突出了该模型在现实世界应用中的泛化能力和实际潜力。
2. 相关工作
A. 常规目标检测
目标检测旨在准确地在图像或视频中定位和分类物体。当前的方法可以分为两大类:基于区域 Proposal 的目标检测方法和基于回归的目标检测方法。基于区域 Proposal 的方法,如Libra R-CNN [22] 和 Dynamic R-CNN [23],利用选择性搜索技术 [24] 在第一阶段生成可能包含物体的候选区域。在第二阶段,它们使用这些区域来细化物体定位和分类。尽管这些方法实现了高检测精度,但它们的分阶段过程限制了实时性能。另一方面,基于回归的方法,如 SSD [25]、RetinaNet [26]、CenterNet [27] 以及 YOLO 系列 [1]、[28]–[30],无需生成候选边界框。它们直接在整个图像中检测和分类物体,显著提高了计算效率。尽管上述方法在良好天气条件下提高了检测性能,但在恶劣天气条件下,它们可能在准确定位和分类物体方面存在不足。
B. 损耗图像中的目标检测
与晴朗天气条件相比,恶劣条件下的目标检测研究受到了显著较少的关注。当前在退化图像中进行目标检测的方法主要分为三类,如下所述。
-
1. 图像自适应:已有部分研究通过级联增强与检测模块探索自适应增强策略以提升退化图像中的检测性能。例如,IA-YOLO[8][9]引入可微分图像处理模块,在恶劣条件下调整图像质量;MDD-ShipNet[18]将该策略扩展至海上场景,而GDIP[10]采用门控图像滤波器提升鲁棒性。然而这些方法通常采用固定参数滤波器,难以适应空间异质性退化问题。为此提出的DEDet[11]通过估计像素级滤波器参数实现动态增强自适应,Zhang等人[12]进一步提出了基于思维链(CoT)引导的自适应增强器,通过退化类型推断优化增强过程。
图片
图2. (a) 所提出的UniDet-D框架的整体架构,该框架以统一的方式集成图像恢复和目标检测,适用于各种退化场景; (b) 所提出的动态光谱感知选择策略的说明,该策略利用多光谱分析和自适应频率滤波,以增强不同天气条件下的特征表示。
-
2. 域适应:最近的努力[31]–[36]已经探索了域适应来弥合清晰图像域和退化图像域之间的差距。例如,Robust-YOLO[34]引入了一个图像传输模块来构建一个中间域以指导对抗训练。MCNet[35]采用幅度校正器来过滤掉无关的频率内容。虽然这些方法在一定程度上是有效的,但它们通常依赖于训练数据的多样性,而忽略了特征提取中的退化引起的失真。
-
3. 多任务方法:另一个有前景的方向是图像恢复和目标检测的联合学习,该方法在退化图像上表现出更好的性能[15], [16], [37]–[39]。DS-Net[16]通过共享卷积层连接恢复和检测,使检测器能够受益于恢复后的特征。MAET[37]利用退化变换来增强检测中的结构理解。TogetherNet[15]使用基于动态 Transformer 的特征增强器整合了两个任务。RDMNet[40]进一步引入退化建模来指导两个子任务,提高了跨不同天气类型的适应性。尽管取得了这些进展,但大多数方法仍然缺乏对频率信息的原理性处理,而频率信息对于在复杂退化下学习判别性特征至关重要。
研究动机与开放挑战: 尽管已有研究取得了一定进展,但仍存在两个关键问题亟待解决。
-
• 第一,现有方法过度依赖低频信号,难以捕捉物体的细粒度细节;
-
• 第二,当前框架多针对单一气象类型(如仅雨天或仅雾天)设计,缺乏对多种退化类型的可扩展性。
因此,亟需一种统一的端到端解决方案,能够在多样化的恶劣天气条件下联合实现图像恢复与目标检测,同时自适应地利用频域特征以提升鲁棒泛化能力。为此,本文提出 UniDet-D,一种统一的多任务框架,旨在有效应对上述挑战。
3. 方法论
A. 概述
UniDet-D的整体框架如图2(a)所示。一般来说,所提出的模型是一种双分支网络结构,包括检测子网络和增强子网络。除了检测结果,UniDet-D的输出还包括图像恢复结果。具体而言,退化图像被输入到三个不同的编码器中进行后续的特征融合。具体来说,首先使用退化表示编码器从输入的低质量图像中捕获多层退化信息。这些学习到的退化表示用于辅助目标检测和图像增强编码器分支。退化引导的融合过程增强了UniDet-D对各种退化的适应性,从而提高了模型从模糊图像中提取特征的能力。然后,在三个不同的视觉编码器的输出上执行特征融合。通过整合来自多个视觉编码器的特征,表示能力得到增强,这反过来有效地聚合了多样化的语义和结构信息,从而实现更完整的特征学习。
值得注意的是,如图2(b)中目标检测编码器的放大视图所示,本文提出了一种动态光谱感知选择策略(dynamic spectral perceiveselect strategy)。该策略旨在动态提取并强化具有判别性的光谱成分,同时抑制可能干扰退化特征表示的冗余频率成分。具体而言,本文提出了多尺度光谱感知模块(MSP)和自适应频域特征融合模块(AF²),以解决现有方法在频域信息利用率不足的问题,从而提升复杂天气条件下目标检测的鲁棒性与精度。最终,融合特征同时包含目标检测与图像恢复任务所需的信息:一方面输入至图像恢复解码器生成增强后的图像,另一方面通过目标检测回归模块生成检测结果。
B. Dynamic Spectral Perceive-Select Strategy
动态光谱感知选择设计是由对恶劣天气图像中重要视觉细节如何丢失的理论分析所驱动的。基于这一见解,作者在以下小节中进一步阐述了所提出的MSP和AF^2模块的细节。
该频率感知约束被整合到整体训练目标中,该目标结合了检测、恢复、对比和频率选择损失。总损失定义为
TABLE I EVALUATION RESULTS ON THE VRAIN-TEST DATASET.
图片
注意:标有星号的方法是在干净的VOC图像上训练的,而其他方法是在退化图像上训练的。
4. EXPERIMENTS AND ANALYSIS
A. Implementation Details
UniDet-D 使用SGD优化器进行训练,初始学习率为 1x10^-2。训练的总轮数为100,批大小设置为16。采用余弦退火策略动态调整学习率。训练和测试图像均调整为 640x640。与传统的目标检测方法不同,作者利用成对的低质量和高质量图像来训练增强分支的特征提取能力,从而提高目标检测分支的性能。为了评估所提出的UniDet-D在恶劣天气条件下的性能,作者采用平均平均
B. Adverse-weather Dataset Construction
为了在多种恶劣天气条件下评估UniDet-D,作者构建或采用了五个从PASCAL VOC数据集[52]衍生的退化目标检测数据集,每个数据集包含五个目标类别:汽车、公交车、摩托车、自行车和行人。
雨天数据集(VRain):我们通过将 RainDS [53] 中的雨条纹合成方法应用于 VOC 图像,生成了一个合成雨天数据集 VRain。该数据集包含 9,578 张训练图像(VRain-train)和 2,129 张测试图像(VRain-test),其雨条纹具有不同强度与方向的多样性特征,可支持模型对复杂雨天场景的鲁棒性评估与训练。
TABLE IV EVALUATION RESULTS UNDER VARIOUS WEATHER CONDITIONS.
图片
注意: UniDet-D表示未使用低光照数据进行训练的模型。UniDet-D (T) 在合成低光照图像上进行训练,但未接触过ExDark的真实世界数据。
雾天天气(VFog):作者采用合成雾天数据集VFog [15],该数据集通过将大气散射模型应用于VOC数据集中的干净图像生成。该数据集分为训练集(9,578张图像,VFog-train)和测试集(2,129张图像,VFog-test)。
雪天场景(VSnow):作者使用CSD数据集[54]中的雪 Mask 合成VSnow数据集,并应用不同的强度(权重在0.5到1.0之间变化)。这产生了9,578张受雪影响的训练图像(VSnow-train)和2,219张测试图像(VSnow-test)。
低光条件数据集(VLow Light): 为模拟训练所需的低光环境,我们通过对 VOC 数据集应用逐像素变换 f(x)=x^r 构建 VLow Light 数据集,其中指数参数 r 从区间 [1.5, 5] 中随机采样。该方法生成了具有不同黑暗程度的图像,提供多样化的低光样本以增强模型在训练中的鲁棒性。
混合天气数据集: 为了训练一个统一模型,作者通过结合VOC、VRain、VFog和VSnow数据集构建了一个混合训练数据集,总共包含38,312张图像。该模型在所有天气场景的相应测试集上进行了评估。
C. 对比实验
-
1. 雨天实验:为了评估UniDet-D在雨天条件下的性能,作者使用合成的VRain数据集将其性能与SOTA多任务和“恢复+检测”方法进行比较。所有模型均在VRain-train上训练,并在VRain-test上测试。YOLOX [1]被用作基准,分别用雨天和干净图像训练的模型 Token 为YOLOX和YOLOXs*。对于“恢复+检测”,作者在YOLOXs*之前应用AirNet [44]和RestorNet [43]作为预处理,形成AirNet-YOLOXs*和RestorNetYOLOXs*。对于多任务比较,作者包括TogetherNet [15]和RDMNet [40]。如表I所示,UniDet-D在VRain-test上优于所有比较方法,比RDMNet提高了1.08%的mAP。
-
2. 雪天实验:作者在合成数据集VSnow上评估UniDetD,并与YOLOXs、YOLOXs*以及“恢复+检测”方法使用TKL [45]和LMQFormer [46]进行比较。这些雪去除模型与YOLOXs*结合形成TKL-YOLOXs*和LMQFormer-YOLOXs*。多任务 Baseline 包括TogetherNet和RDMNet。如表II所示,UniDet-D在VSnow-test上取得了优异的性能,在mAP指标上分别比TogetherNet和RDMNet高0.95%和1.32%。这些结果证实了UniDet-D在雪天条件下检测密集分布和远距离物体的鲁棒性。
-
3. 雾天实验:我们将UniDet-D与具有代表性的"恢复+检测"(restore+detect)和端到端方法进行对比。"恢复+检测"方法先进行图像去雾(DCP [47]、AODNet [48]、AECRNet [49]和RestorNet),随后使用在干净图像上训练的YOLOXs进行检测。这些去雾模型在RESIDE [55] 的OTS子集上训练,以匹配RTTS数据特性。组合模型包括DCP-YOLOXs、AODNet-YOLOXs*等。端到端方法直接在雾天输入上进行检测,包含DS-Net [16]、TogetherNet和IA-YOLO [8]。如表III所示,UniDet-D在VFogtest数据集上超越所有基线方法,相较近期RDMNet提升了1.51% mAP。
-
4. 不同退化条件下的实验:为了全面评估UniDet-D的泛化能力,作者在多种天气条件下评估其性能,包括清洁、雨天、雪天和雾天环境。UniDet-D在一个包含所有四种条件的混合数据集上进行训练。 Baseline 包括YOLOXs和YOLOXs*,它们分别在对损坏和清洁图像上进行训练,以及多任务模型TogetherNet和RDMNet。如表IV所示,UniDet-D始终优于所有比较方法,分别比TogetherNet和RDMNet提高了1.18%和1.41%的mAP增益。这些结果证实了UniDet-D作为一个统一模型的有效性,能够在不同退化条件下进行鲁棒的目标检测。
-
5. 泛化性能评估:为验证所提出的UniDet-D模型的泛化能力,本研究使用ExDark数据集[56],该数据集包含真实世界的低光照图像,并作为未见过的一个测试集。评估将UniDet-D与代表性的“恢复+检测”和端到端 Baseline 进行比较。“恢复+检测”方法包括ZeroDCE-YOLOXs[50]和IAT-YOLOXs[51]。此外,作者还与图像自适应方法IA-YOLO以及多任务学习模型进行了比较,如TogetherNet和RDMNet,它们是退化目标检测的代表性端到端解决方案。如表V所示,在具有挑战性的零样本设置下,UniDet-D表现出优异的泛化能力,比RDMNet高出1.85 mAP,并在汽车和公交车检测上分别实现了3.42和2.92的显著AP提升。此外,当在合成低光照数据VLow Light上训练时,作者将其 Token 为UniDet-D (T),其mAP提升了4.22%,展示了其强大的适应性和统一设计的有效性。
图片
图5. 在未知的天气退化条件下检测结果的可视化,包括沙尘和雨雾混合天气。注意:边界框按物体类别进行颜色编码:红色代表车辆,深蓝色代表行人,紫色代表摩托车。
D. 定性评估
-
1. 在各种退化情况下的综合比较:除了定量评估,作者还进行了跨多种恶劣天气条件的全面定性研究,包括雨、雪、雾和低光照场景,如图4所示。评估的模型包括 Baseline YOLOXs、基于增强的 Pipeline ,如AirNet-YOLOXs、DCP-YOLOXs*、RestorNet-YOLOXs*、ZeroDCE-YOLOXs*、IAT-YOLOXs*、TKL-YOLOXs*和LMQFormer-YOLOXs*,以及最近的多任务模型RDMNet。值得注意的是,UniDet-D在这些最先进方法中始终能实现更清晰的目标定位,且漏检或误检更少。相比之下,现有模型在浓雾或夜间等严重退化条件下会出现检测失败。
-
2. 未见退化条件下的泛化能力比较:为评估UniDet-D的泛化能力,我们进一步在先前未见的退化类型下进行验证,包括沙尘暴和雨雾混合场景(如图5所示)。当基线检测器及RDMNet等强大多任务模型在这些复杂且未经训练的条件下表现受限时,UniDet-D仍能有效识别并定位更多目标。实验结果表明,UniDet-D的适应性与强泛化能力主要归因于所提出的动态频谱学习机制。
TABLE VI ABLATION RESULTS ON FREQUENCY SWITCHES.
图片
E. 消融研究
为评估频率滤波开关的影响,作者进行了消融实验,结果如表VI所示。所有消融模型均在VFogtrain数据集上训练,并在VFog-test数据集上测试。多光谱注意力机制中的DCT和学习驱动的频率滤波逐步引入UniDetD中。一个有趣的现象是,在频率分量子集上训练的UniDet-D比在所有频率带上训练的模型性能更好,mAP提升了1.54%。这一结果表明,并非所有频率分量对检测精度都有同等贡献,选择性地保留信息丰富的频率可以有效地抑制冗余或噪声信号。这种选择性强调导致了更紧凑和鲁棒的特征表示,最终提升了目标检测性能。
5. 总结
在本文中,作者提出了UniDet-D,一个用于在多种恶劣天气条件下对低质量图像进行统一目标检测的框架。与现有的针对特定退化类型进行优化的方法不同,UniDet-D在一个端到端的架构中联合执行目标检测和图像恢复。基于对退化图像的频域分析,作者引入了一种动态频域注意力机制,该机制包括一个MSP模块和一种AF^2方法,使模型能够自适应地选择信息丰富的频谱分量。
大量实验表明,UniDet-D在各种退化场景中始终优于SOTA检测器,同时表现出对未见过条件(如沙尘暴和雨雾混合物)的强泛化能力。这些结果证实了作者的方法的有效性和可扩展性,突出了其在低质量视觉感知任务中实际部署的潜力。
参考
[1]. UniDet-D: A Unified Dynamic Spectral Attention Model for Object Detection under Adverse Weathers
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。