IDF-CR:迭代扩散法去除遥感图像中的分治云
TGRS 2024 Meilin Wang
目录
摘要
深度学习技术已经证明了它们在去除光学遥感图像中的云层覆盖方面的有效性。卷积神经网络(CNN)在云去除任务中发挥主导作用。然而,受卷积运算固有局限性的约束,CNN只能解决云遮挡的一小部分。近年来,扩散模型由于其强大的生成能力,在图像生成和重建方面已经达到了最先进的水平(SOTA)。受扩散模型快速发展的启发,本文首先提出了一种迭代扩散去云方法(IDF-CR),该方法具有很强的生成能力,能够实现分量分而治之的去云。IDF-CR由像素空间去云模块(Pixel-CR)和隐空间迭代噪声扩散网络(IND)组成。具体来说,IDF-CR分为两个阶段的模型,解决像素空间和潜在的空间。两阶段模型有助于从初步云减少到细致的细节细化的战略过渡。在像素空间阶段,Pixel-CR启动多云图像的处理,在提供具有先验除云知识的扩散模型之前产生次优的除云。在潜在空间阶段,扩散模型将低质量的云去除转化为高质量的干净输出。我们通过实现ControlNet来改进稳定扩散。此外,一个无监督的迭代噪声细化(INR)模块的扩散模型,以优化预测噪声的分布,从而提高先进的细节恢复。我们的模型表现最好的其他SOTA方法,包括图像重建和光学遥感云去除光学遥感数据集。
关键词 遥感影像,云去除,扩散模型,迭代噪声细化。
1 介绍
光学遥感图像是能够封装关于表面的信息的视觉表示。对可见光和红外辐射都敏感的光学传感器收集光学遥感图像。这些视觉表示捕捉表征地球表面的光谱属性,便于提供表面特征的复杂细节,包括山脉,平原,湖泊,河流和各种地貌元素。因此,它们可用于各种应用,包括地理信息系统、环境监测、土地利用规划、农业、林业、城市规划和自然灾害监测。然而,无处不在的大气云通过模糊光学遥感图像的部分构成了不可避免的挑战。困难在于,云作为气候条件的产物,对气候变化的反应是如此复杂,以至于预测它们的轨迹成为一项艰巨的任务。此外,国际卫星云气候学项目发现,全球年平均云量高达66% [1]。因此,从光学遥感图像中去除云层的努力正在成为提高这类图像效用的主要途径。
近年来,卷积神经网络(CNN)带来了范式转变。利用其强大的非线性表示能力,在各个领域的图像处理相关的许多挑战已被成功克服。例如,去雾[2]、超分辨率[3]—[6]和除云[7]—[9]等任务。特别是,DSen 2—CR [10]介绍了一种基于深度卷积网络的有效遥感图像重建网络。该方法主要利用残差网络巧妙地捕捉多云到无云状态的映射。此外,生成对抗网络(GAN)[11]展示了其生成能力。它通过一个生成器合成数据,然后使用一个消隐器来确定数据的真假,从而提高生成器的性能。Spa—GAN [12]使用GAN和CNN从光学遥感图像中去除云。它建议通过估计空间注意力来帮助GAN生成无云图像。这些方法大大提高了从遥感图像中去除云的能力。
然而,所有上述框架都有固有的局限性。CNN固有的卷积运算只能捕获本地位置的信息,这使得它们不太适合长距离捕获和交互信息。与Transformer [13]相比,注意力机制的特征在于它能够捕获比卷积操作更广泛的特征信息。同时,视觉Transformer(ViT)[14]的设计有助于扩大图像的感知范围。而GAN面临着发电机和消弧线圈之间相互作用的挑战,这使得发电机和消弧线圈损耗难以同时收敛,往往导致模型失效。值得注意的是,生成模型发现与连续向量相比,离散向量的语义更容易理解[15]。
最近,扩散模型[16]已经成为继GAN之后生成研究的新焦点。随后,许多工作试图提高扩散模型的效率。它在多项任务中取得了成功,包括图像超分辨率[17],分割[18]和分类[19],并一直表现出最先进的(SOTA)性能。一个特别有效的变体是稳定扩散模型(LDM)[20]。LDM被设计为使用冻结的矢量量化变分自动编码器(VQVAE)[15]将图像从像素空间变换到潜在空间,并且通过在潜在空间中执行的扩散和采样相位来实现。尽管扩散模型在各个领域的有效性,一个显着的缺乏持续在一个基于扩散的云去除网络的领域。鉴于此,我们奋进于利用扩散模型的强大生成能力来实现逼真的云去除。这一创新设计旨在利用扩散模型中强大的图像到图像映射能力,以实现高质量的除云结果。
在本文中,我们提供了一个迭代扩散过程的强大的云去除网络,称为IDF—CR,专为光学遥感图像。受CDC [21]的启发,IDFCR体现了一种组件分而治之的架构,包括像素空间云去除(Pixel—CR)模块和迭代扩散过程模块,如下所示。(1)为了提高云去除的有效性,并通过扩散模型实现上级的视觉效果,我们通过在像素空间中对多云图像进行粗云去除来启动过程。利用Swin Transformer [22]保持长距离信息交互和局部特征提取能力的能力,我们利用Swin Transformer作为像素空间的基本操作。同时,在Swin Transformer之后引入了云的注意模块,为后续的特征提取模块提取云的位置信息。(2)由于得到的像素空间表达式倾向于简单地去除云,所以云占据的位置通常会产生失真像素簇的残留小区域。这种现象导致视觉上不令人满意的结果。同时,由于基于GAN的方法在全局封装综合数据分布方面的局限性[23],这导致在重建云层覆盖位置的纹理细节时,可视化效果不佳。相反,扩散模型在实现从随机概率分布到高分辨率图像的高质量映射方面表现出色[24]。因此,我们提倡使用扩散模型的细节恢复和云去除。通过VQVAE将低质量云去除输出从像素空间转换到潜在空间。所得离散向量用作扩散模型的输入。同时,我们应用ControlNet [25]来保持扩散模型的生成能力。(3)我们引入了一个迭代噪声细化(INR)模块的基础上的扩散模型,以优化图像细节恢复的权重。这涉及从UNet预测的噪声预测中构造更复杂的扩散离散向量zt,这允许迭代噪声细化。
我们提出了一个组件分而治之的云去除框架,并比较所提出的方法与SOTA图像云去除网络Spa-GAN没有地面特征提示,再加上我们的重新训练的图像重建网络DiffBIR和SwinIR。这些全面的比较表明,IDF-CR提供了一个显着的性能飞跃,在该领域的单遥感图像云去除。此外,为了验证我们提出的模块的有效性,我们专门针对两阶段网络,多云注意和INR模块进行消融实验。一组全面的度量结果,加上可视化分析,证明IDF-CR的能力,不仅实现云去除,而且提高可视化。我们对这一努力的贡献主要概述如下:
1)我们提出了IDF—CR,一个开创性的网络,将扩散模型集成到云去除域。这种创新架构利用扩散模型的强大生成能力来实现组件分而治之的云去除。
2)我们提出了云注意和INR模块的特征提取在像素空间和细节恢复在潜在空间,分别。与以前的图像重建网络不同,多云注意力向网络提供云的明确位置信息,从而允许Swin Transformer进行更有效的特征提取。INR旨在通过构建更复杂的潜在变量来提高扩散模型在预测噪声方面的准确性和鲁棒性,最终获得视觉上吸引人的结果。
3)在RICE [26]和WHUS2—CRv [27]数据集上的大量实验结果证明了我们所提出的方法的有效性。
2 相关工作
除云。图像去云是一个经典的低层图像处理任务,主要分为两类:深度学习方法和传统方法。后者以插值[28]、小波变换[29]和信息克隆[30]为特征,代表了应对这一挑战的范式。Xu等人。[31]使用稀疏表示来促进光谱域中薄云伪影的去除。在Liu等人[32]中,精心设计了一个低通滤波器,以选择性地提取云成分,从而实现云去除。另一方面,Lin等人[30]在检索地面信息的同时执行云去除操作。同时,Hu等人[33]使用沙漏滤波器组结合双树复小波变换从遥感图像中提取不同尺度和方向的信息。Lorenzi等人。[34]提出通过压缩感知来增强遥感图像中的指定云区域。Xu等人。[35]通过光谱混合分析纠正了云像素。Li等人。[36]使用多时相字典学习算法,扩展了贝叶斯云去除方法。然而,传统方法的有效性往往局限于特定的任务和数据集。面对新的复杂性,传统方法需要重新设计和定制。相反,CNN通常不需要这种大修。与传统方法相比,CNN表现出上级的泛化能力,使它们在处理图像内像素之间的复杂关系方面优于后者。
Zhang et al. [37]是CNN应用于遥感图像云去除领域的先驱。它吸收了不同的数据源,并合并了各自的功能,以增加信息内容。[8]采用cGAN [38]来利用多光谱数据,以提高可见光RGB卫星图像的清晰度。类似地,Zheng等人。[39]采用GAN和UNet来获取多云和无云条件下的映射。额外的循环一致性用于约束发电机预测,确保无云场景相应地与指定位置对齐。
合成孔径雷达(SAR)是一种利用雷达信号扫描地球表面的主动遥感技术。与其他光学遥感技术不同,合成孔径雷达图像不受云层和降水等气象限制的影响,使其能够在不同的环境背景下运行。然而,S