超分辨率遥感图像去云的扩散增强方法
IVP2024
摘要:云层的存在严重影响了光学遥感(RS)图像的质量和有效性。然而,现有的基于深度学习(DL)的去云(CR)技术在准确重建图像的原始视觉真实性和详细语义内容方面遇到了困难。为了应对这一挑战,这项工作建议在数据和方法方面进行改进。在数据方面,建立了一个空间分辨率为0.5m的超分辨率基准,命名为CUHK-CR。该基准包含丰富的详细纹理和多样化的云覆盖,为设计和评估CR模型奠定了坚实的基础。从方法论的角度来看,一种新的基于扩散的框架CR称为扩散增强(DE),提出了执行渐进的纹理细节恢复,从而减轻了训练难度,提高推理精度。此外,权重分配(WA)网络的开发,以动态地调整特征融合的权重,从而进一步提高性能,特别是在超分辨率图像生成的上下文中。此外,一个由粗到细的训练策略被应用于有效地加快训练收敛,同时降低了处理超分辨率图像所需的计算复杂度。在新建立的CUHKCR和现有数据集(如RICE)上进行的大量实验证实,所提出的DE框架在感知质量和信号保真度方面优于现有的基于DL的方法。
1 介绍
遥感(RS)图像在各种应用中起着至关重要的作用,包括变化检测[1],语义分割[2]和目标检测[3]。然而,卫星传感器的成像能力以其超远距离性质为特点,使其很容易退化,导致所捕获图像的质量失真。造成这种退化的一个重要因素是云层的存在。云大大降低了图像的可见度和饱和度,破坏了遥感图像的有效性,特别是在光学领域。这种云引起的退化妨碍了图像的清晰度和细节,影响了它们的实际效用。因此,迫切需要开发恢复方法,以增强被云层遮挡的地表信息,从而提高遥感图像的有效性。
传统的去云方法可以分为两大类,即多光谱技术和多时相技术。更具体地说,多光谱方法[4—7]主要依赖于波长相关的吸收和反射的变化,以恢复由雾霾和薄卷云造成的模糊景观。然而,在涉及完全阻挡光学信号的厚而薄的云的情况下,由于缺乏补充信息,多光谱方法的功效可能会受到影响。相比之下,多时间方法[8,9]从在不同时刻捕获的参考图像中整合晴空条件。虽然从多时相方法得到的结果一般更可靠,因为它们来自实际的无云观测,景观的快速变化显着影响重建图像的准确性。
近年来,基于深度学习(DL)的方法因其生成高质量、无云计算结果的非凡能力而广受欢迎。DL领域内的这些方法可以进一步分类为基于CNN的模型[10],基于生成对抗网络(GAN)的模型[11,12]和基于扩散的模型[13]。更具体地说,基于CNN的模型通过将多云图像输入到网络中并基于从输出和相应的无云图像计算的损失函数更新参数来进行操作。沿着相同的方向,Meraner等人。[14]介绍了一种深度残差神经网络,旨在重建底层地表结构的光学表示。值得注意的是,合成孔径雷达图像被纳入CR过程,以提供有关云层下表面特征的更多信息。此外,Ma等人[15]利用两步卷积网络从云中提取透明度信息并确定其位置。然而,基于CNN的模型的特征表示能力受到约束,限制了它们生成具有上级感知质量的无云图像的能力。
为了解决这一限制,基于GAN的模型采用了独特的训练策略,其中包含两个关键组件,即生成器和训练器。生成器创建无云图像,而生成器评估生成的图像是否符合所需的质量标准,通过额外的GAN损失函数提供用于更新生成器参数的梯度。例如,CloudGAN[12]通过学习多云图像与循环结构中相应的无云图像之间的特征表示的双向映射来保留颜色组成和纹理。然而,基于GAN的模型面临着持续的挑战,包括模型崩溃、不稳定的训练动态和消失的梯度,这对它们在各种应用中的整体性能产生了不利影响。
最近,生成模型的一个新的分支,称为扩散模型[16],已被引入计算机视觉任务。这些模型在各种低级别任务中生成详细纹理方面表现出色,包括超分辨率[17-19],去模糊[20,21]和修复[22]。将扩散模型的逐步学习和细化功能最优地集成到生成过程中,有望为CR中更先进、更有效的方法铺平道路。然而,值得注意的是,从CR的纯扩散模型获得的结果通常是不准确的,具有不期望的假纹理。因此,目前扩散模型在CR中的应用主要集中在特征提取[13]上,限制了它们在这种情况下渐进学习和细化的固有能力。
在这项研究中,基于扩散架构,我们提出了一种新的网络命名为扩散增强(DE)CR,旨在利用扩散模型的固有优势,以提高图像的质量。与现有的基于扩散的方法形成鲜明对比的是,该方法仅依赖于渐进细化来重建细粒度的纹理细节,这项工作提出了将参考视觉先验集成在一起。通过这种方式,全局视觉信息可以有效地集成到渐进扩散过程中,以减轻训练难度,从而提高推理精度。此外,权重分配(WA)网络被引入到优化的动态融合的参考视觉先验和中间去噪图像从扩散模型。为了加快扩散模型的收敛速度,我们进一步提出了一种由粗到精的训练策略。更具体地说,网络首先在较小的补丁上训练,然后使用较大的补丁进行微调。最后,利用最近的高质量和高分辨率的卫星观测[23-25],建立了一个包含清晰的景观位置和内在特征的空间纹理信息的超分辨率基准,用于CR算法设计和性能评估。
本文的主要工作如下:
1)提出了一种新的用于云覆盖下地表恢复的扩散增强网络。建议DE网络,它合并了全球视觉信息与渐进扩散恢复,提供了增强的能力,捕捉数据分布。因此,它在推理过程中利用参考视觉先验知识预测细节信息方面表现出色;
2)权重分配模块被设计为计算用于融合从扩散模型导出的参考视觉先验和中间去噪图像的自适应加权系数。因此,参考视觉先验细化主要有助于在初始步骤中粗粒度的内容重建,而扩散模型则专注于在后续阶段中包含丰富的细节。此外,采用由粗到精的训练策略,在提高DE收敛速度的同时,稳定了训练过程;
3)最后,建立了CUHK-CR超分辨率基准,对不同类型云覆盖情况下的CR方法进行了评估。我们的基准由668张薄云图像和559张厚云图像组成,具有多光谱信息。据我们所知,我们的基准代表了所有现有CR数据集中空间分辨率最高的CR数据集,即0.5m。数据和代码可以从GitHub1下载。
本文的其余部分结构如下:第二节首先概述了现有的CR数据集和方法,然后第三节详细介绍了我们的数据集CUHK-CR。之后,第四节介绍了拟议的DE网络,而实验结果和见解在第五节进行了审议,最后,在第六节提供的结论。
2 相关工作
A CR的传统端到端方法
端到端去云模型专门设计用于将多云图像作为输入,并在推理过程中直接生成无云图像。这些模型擅长快速产生推理结果,主要集中在辨别多云图像与其相应的无云图像之间的差异。CVAE[10]使用概率图形模型深入研究图像退化过程,而SpAGAN[30]通过采用局部到全局的空间注意力方法来检测和突出显示云区域来模拟人类视觉机制。此外,AMGAN—CR[31]使用由注意力地图引导的注意力残差网络来消除云。尽管这些端到端模型有其优点,但它们的视觉结果总是用相邻的颜色替换云,缺乏预测被云遮挡的底层纹理的能力。这种限制对这些CR方法的有效性产生了不利影响,特别是在密集云覆盖的情况下。
B 扩散结构和事先指导
最近,扩散模型[16,32,33]引起了人们的极大关注。该模型从潜在变量xT逐渐生成最终结果,表示为x0,其中T表示参数化马尔可夫链中的扩散步骤的总数。扩散模型包括两个关键部分,即正向过程和反向过程。更具体地,前向过程通过逐步进展将数据分布转换为潜在变量分布,利用马尔可夫链的参数从初始数据空间过渡到潜在空间。相反,反向过程旨在将潜在变量分布恢复为原始数据分布,恢复初始数据并提供对底层数据分布的全面理解。
与之前讨论的端到端方法相比,扩散模型[34,35]提供了更高级别的详细信息,有利于恢复云层覆盖下的景观。然而,传统的扩散模型往往会产生不可靠的假纹理。在缺乏有效解决方案的情况下,当前基于扩散模型的方法(如DDPM-CR [13])主要采用扩散模型作为特征提取器,这忽略了利用扩散模型在逐步学习和改进中的固有优势的潜力。或者,一些开创性的尝试[36,37]已经将先验指导纳入推理过程。为了充分利用扩散模型的增量学习和迭代细化的潜力,建议DE网络制作,以改善生成过程中,利用参考视觉先验。
C CR数据集
表I列出了光学CR的几个最具代表性的现有图像数据集。如表I所示,所有数据集都有一个共同的缺点,即空间分辨率低,约为10至30米。这种限制大大损害了它们可以提供的空间细节水平。此外,尽管卫星图像分析需要多光谱信息,但T-Cloud[10]和RICE[26]等数据集仅包含RGB波段。此外,最小化“所获取