图1。所示我们的结果在NTIRE 2023除雾挑战中,在PNSR, SSIM和LPIPS方面取得了最佳表现。
摘要
近年来,人们对图像去雾的兴趣越来越大。人们提出了许多深度学习方法来解决这一挑战,并在处理均匀雾霾方面取得了重大成就。然而,当这些解决方案应用于具有非均匀雾霾的图像时,例如由NTIRE挑战引入的NH-HAZE23数据集,这些解决方案无法保持可比的性能。这种失败的原因之一是,非均匀雾霾不符合均匀雾霾建模所需的假设之一。此外,传统的端到端训练方法需要大量对非均匀的模糊图像和干净的对应图像,而NH-HAZE23数据集数量有限。虽然有可能通过利用其他非均匀的去雾数据集来增强NH-HAZE23数据集,但我们观察到有必要设计一种适当的数据预处理技术,以减少目标数据集和增强数据集之间的分布差距。这一发现确实符合以数据为中心的人工智能的本质。利用新颖的网络架构和有原则的数据处理方法,系统地提高了数据质量,我们提出了一种创新的除雾方法。具体来说,我们在增强的数据集上应用rgb通道转换,并将最先进的变压器作为双分支框架的主干。我们进行了大量的实验和烧蚀研究,以证明我们提出的方法的有效性。源代码可从https://github.com/ yangyiliu21/ntire2023_ITBdehaze获得。
1. 介绍
近年来,人们对图像去雾越来越感兴趣,它被归类为图像恢复的子任务之一。雾霾自然存在于世界各地,并且由于气候变化而变得更加频繁。这一常见的大气现象因其对交通安全的潜在风险而引起了人们的极大关注,因为无论是人类观测还是计算机视觉模型都容易在朦胧的场景中失败。这使得图像去雾成为一项重要的低层次视觉任务,已经提出了许多方法来解决这一挑战[10,15,18,21 - 23,29,30,35 - 37,39,42]。
其中,许多基于神经网络的方法[10,11,21,29,39,42]在这篇CVPR研讨会论文中表现出了显著的性能,这篇论文是由计算机视觉基金会提供的开放获取版本。除了这个水印,它与接受的版本是相同的;最终发表的论文集可在IEEE Xplore. 1406上找到,该论文集处理图像去雾问题。具体来说,得益于强大的网络模块和大量的训练数据,端到端方法提供了有希望的结果。然而,随着雾霾这种失败的原因是因为非分布的复杂性和非均匀性的增加,很多方法并没有达到令人满意的效果。均匀雾霾的厚度并不完全由背景场景的深度决定.
尽管研究者在收集非均匀霾数据方面做了大量工作,如NHHAZE数据集[6-8],但数量仍然有限。一种普遍的看法是,当使用如此小的数据集从头开始训练深度神经网络时,模型容易遇到过拟合问题。一种朴素的解决方案是将所有可用的非均匀霾数据集组合在一起,形成一个相对较大的数据集。然而,由于颜色失真、物体复杂性和相机性能等多种因素导致数据集之间存在差异,研究表明,直接组合实际上会损害单个数据集的去雾性能[22]。在现有数据的质量和数量都有限的实际情况下,寻找一种强有力的解决办法仍然是一项严峻的挑战。
为了解决上述问题,我们采用了由最先进的骨干网络组成的双分支框架,并对往年的NH-HAZE数据集进行了新颖的数据预处理转换。在以数据为中心的人工智能思想的激励下,机器学习已经成熟到高性能模型架构广泛可用的程度,而工程数据集的方法却滞后[1,27],我们在工程数据上投入了很多精力。受伽马校正性能的启发[15,37],我们提出了一种简单而有效的rgb通道数据预处理方法。我们证明了它对这种竞争设置的适用性,并认为它有望成为增强类似数据集的原则。这种以数据为中心的人工智能启发的预处理方法的细节将在后面的章节中讨论。在网络架构方面,我们在两分支框架下设计模型[15,36,37]。在第一个分支中,我们采用在ImageNet数据集[12]上预训练的Swin Transformer V2模型[24]作为编码器。强大的Swin Transformer被认为能够在迁移学习的许多环境中取代以前的方法,其中从大规模基准测试中获得的知识适用于特定任务的数据集[20,24]。当处理真实世界的小型非同构数据集[37]时,这些相关的特征是至关重要的。除了一个精致的解码器和跳过连接,第一个分支提取模糊图像的多层次特征。第二个分支被引入,通过专门研究目标数据的领域来补充从预训练模型中学到的知识。为简单起见,我们遵循[37],使用RCAN[40]构建第二个分支。由于在第二个分支中没有下采样和上采样操作,我们期望它提取的特征与第一个分支获得的特征不同。最后,融合尾将两个分支的结果聚合在一起,产生去雾的输出图像。总的来说,我们的贡献总结如下。首先,我们在以数据为中心的人工智能的启发下,提出了一种简单而有效的数据处理方法,利用额外的数据来显著增强我们的模型。其次,我们将最先进的主干网合并到两个分支框架中。通过仔细平衡两个分支,我们的模型使用有限大小的数据集展示了有希望的结果,并且优于采用该管道的其他当前方法。最后,我们进行了大量的实验来证明我们提出的方法的竞争性能。通过对不同模型和数据组合的大量消融研究,我们希望说服未来的竞赛参与者将模型设计和数据工程同等重视。
2. 相关的工作
在本节中,我们简要回顾了单幅图像去雾和有限数据学习的文献。
单图像去雾。单幅图像去雾的方法分为两类:基于优先级的方法和基于学习的方法。为了保证性能,基于先验的方法需要对雾霾图像进行合理的假设和了解,以获得ASM建模中透射图和大气光强的准确估计[26]。这一类的代表性作品有[9,14,18,34,44]。[34]观察到清晰图像比朦胧图像对比度更高,提出了一种局部对比度最大化方法。基于无霾斑块中的图像像素在至少一个颜色通道中的强度值接近于零的假设,[18]引入了暗通道先验(Dark channel Prior, DCP)。[44]提出了一种适应颜色衰减先验(CAP)的线性模型,根据对模糊图像亮度和饱和度差异的了解来估计深度。基于先验的方法在单幅图像去雾中留下了永久的印记,但它们在适应不同场景时的脆弱性使研究人员转向另一个方向,即基于学习的方法。随着神经网络的发展,[10,11,21,29,39,42]提出了越来越强大的模型,能够直接从模糊图像中恢复干净图像,而无需估计传输图和深度。这些方法在去除均匀雾霾方面的优势归功于大型训练数据集的可用性。当应用于非均匀雾霾时,它们不能产生可比的结果。存在的非均匀霾数量有限数据集阻止研究人员采用简单的端到端训练方法。
有限数据学习。所有的人工智能模型都离不开数据。许多模型需要一个庞大的数据集进行训练,但大数据集并不总是可用的。因此,它促使研究人员寻找解决方案,以有限的数据完成训练。在去雾方面,解决由小型非同构训练数据集引起的问题的一个看似简单的解决方案是通过将几个小数据集组合在一起组成一个相对较大的数据集。就NTIRE2023挑战[8]而言,可以通过使用今年的数据(目标数据集)增强NH-HAZE数据集(增强数据集)[6,7]来完成。令人惊讶的是,与普遍认为更大的数据集在深度学习中总是更好的观点相反,[22]观察到,当在单个数据集(而不是所有数据集的联合)上进行训练和测试时,模型表现更好。这一观察结果表明,与目标数据相比,增强的数据集位于不同的域。直接聚合在数据集中引入了域漂移问题。因此,[22]提出了一种测试时间训练策略来缓解这一问题,而[15,31,37]则选择在将训练数据发送到去雾模块之前对其域进行调整。有趣的是,专注于改进数据集而不是模型的想法是由Data-Centric AI竞赛引入的[1]。以数据为中心的人工智能有望提供一套数据集优化方法,从而使深度神经网络能够使用更小的数据集进行有效训练。提出的技术范围很广,从简单的到复杂的组合。通过我们的实验和定性分析,我们发现过于简单的方法,如[15,37]采用的伽玛校正,并不能准确地恢复颜色。然而,由于可用数据的稀缺性和深度信息的缺乏,像[31]应用域自适应学习一个单独的神经网络来翻译数据这样复杂的方法是不可行的。在下一节中,我们将介绍我们在整个挑战环境中脱颖而出的创新解决方案。
图2。采用该方法处理前后数据集(GT)的rgb分布比较。
3. 该方法
在本节中,我们将按照工作管道的顺序介绍我们的方法的细节。首先,我们展示了受以数据为中心的人工智能思想启发的数据预处理方法。其次,详细介绍了我们的模型体系结构,以及每个组件的功能。最后,我们介绍了用于训练我们所提出的网络的损失函数。
3.1. 以数据为中心的工程
系统地对数据进行工程处理是训练深度神经网络的关键要求。以数据为中心的人工智能思想还强调在部署前评估数据质量[38]。通过将NH-HAZE20和21数据集[6,7]与今年提供的数据进行数值和经验比较,我们发现明显的颜色差异。在对今年的测试数据进行评估时,与仅对今年的数据进行训练相比,直接组合所有数据进行训练并不会提高分数(见4.3.1节的结果)。因此,我们的目标是提出一种减少色差的方法,并将增强数据的分布向目标数据的分布转移。伽玛校正[15,37]是一种简单而有效的数据预处理技术,受其成功应用的启发,我们提出了一种更系统的数据工程解决方案。与文献[15,37]中采用灰度伽玛校正的做法不同,我们在这里引入分别对每个R、G、B通道进行校正:
其中O和I分别为输出和输入像素强度(∈[0,255])。下标 R、G、B 表示不同通道的值是唯一的。
在实现上,我们首先计算