题目:Unmixing Diffusion for Self-Supervised Hyperspectral Image Denoising
作者: Haijin Zeng, Jiezhang Cao, Kai Zhang, Yongyong Chen, Hiep Luong, Wilfried Philips
论文创新点
-
基于条件丰度生成的HSI恢复框架:本文提出了一种生成式解混框架,不仅增强了原始低质量的高光谱图像(HSI),还进一步补偿了由噪声引起的内容损失和光谱偏差:
-
新颖的Transformer解混网络:针对光谱解混模型中的分解问题,本文设计了一种基于Transformer的解混网络(STU):
-
自监督条件函数引导的扩散生成调整:本文提出了一种自监督条件函数,用于引导扩散模型的生成过程。该函数通过将噪声丰度映射到扩散马尔可夫链的中间状态,实现了无监督的丰度图生成:
-
状态匹配与条件策略:本文提出了一种状态匹配策略,通过将噪声丰度与扩散模型中的中间状态进行匹配,直接从噪声输入启动扩散过程。结合条件函数,该策略能够生成高质量的丰度图,并在去噪过程中保留图像的高频细节,显著提升了HSI的恢复效果。
摘要
高光谱图像(HSI)在医学、农业和工业等领域有广泛的应用。然而,由于窄带光谱滤波,获取高信噪比的HSI具有挑战性。因此,HSI去噪尤为重要,特别是对于快照高光谱成像技术。虽然大多数现有的HSI去噪方法是有监督的,但为多样化的场景、高光谱相机和扫描参数创建有监督的训练数据集是不现实的。本文提出了Diff-Unmix,一种基于扩散去噪生成模型的自监督HSI去噪方法。具体来说,Diff-Unmix通过结合光谱解混和条件丰度生成来解决噪声退化的HSI恢复问题。首先,它采用可学习的基于块的光谱解混策略,并结合纯Transformer骨干网络。然后,作者引入了一个自监督生成扩散网络来增强光谱解混块中的丰度图。该网络重建无噪声的解混概率分布,有效减轻了这些组件中的噪声引起的退化。最后,通过将扩散调整后的丰度图与光谱端元混合,重建出无噪声的HSI。在模拟和真实噪声数据集上的实验结果表明,Diff-Unmix达到了最先进的性能。
关键字
高光谱图像去噪,自监督学习,扩散模型,光谱解混,Transformer
3. 方法
3.1 Transformer 解混网络
光谱解混理论假设图像可以分解为丰度和光谱端元:
其中 χ 是输入HSI,A 和 E 分别表示丰度图和光谱端元。这本质上是一个不适定问题,存在许多潜在的解。丰度指的是混合像元中不同纯材料(称为端元)的相对比例。这些丰度表示每个端元对该像元中观察到的整体光谱特征的贡献。例如,在景观图像中,丰度值将表示给定像元中草、土壤、水和岩石等材料的百分比。另一方面,端元表示场景中单个材料的纯光谱特征,理想情况下不包含任何混合。它们作为已知材料的参考光谱,因此在不同的噪声退化条件下趋于恒定。因此,噪声被分解到丰度图中,图3展示了视觉说明。作者通过公式(3)表示光谱解混的优化目标:
其中 τ(A×3E) 确保图像可以从分解的丰度和光谱端元重建。ϕ(A) 和 ψ(E) 约束丰度图和光谱端元的一致性。α 和 β 是超参数。随后,下一小节将设计一个自监督损失函数。
3.1.1 网络架构
如图3所示,光谱Transformer解混网络(STU)由两个分支组成,即丰度分解(AD)分支和光谱端元分解(SED)分支。
在光谱端元分解分支中,使用多个卷积层来降低计算复杂度,同时确保有效的分解。在AD的丰度分解分支中,使用多阶段的光谱Transformer编码器和解码器来保留丰度和光谱端元图的固有特性。这种方法增强了丰度图的恢复性能和信息保留。具体来说,Transformer编码器和解码器都包含一个全局光谱注意力模块和一个映射层。给定一个大小为 H×W×B 的图像 I 进行分解,AD首先通过卷积投影获得其嵌入特征 Finit∈RH×W×C,随后AD块中的计算可以总结为:
其中 Norm 表示归一化。Fi−1 表示当前AD块的输入特征图。
Transformer的时间复杂度随图像大小呈二次方增长,这对高维HSI数据提出了计算挑战。光谱解混主要依赖于光谱波段之间的光谱相关性。因此,在光谱解混分解过程中,为空间和光谱模式分配相同的计算资源可能不是最优的。为解决这个问题,受光谱注意力的启发,作者在AD中使用了一种新颖的全局光谱注意力(GSA)机制来计算注意力,如图4所示。在保持光谱解混性能的前提下,它大大减少了注意力计算的复杂度。
在GSA模块中,特征张量 X∈RH×W×C 在应用Layer-Norm后首先旋转为 X′,以便通过卷积操作将其光谱方向关联起来。这导致特征投影为 Q、K 和 V。具体来说,投影结果为:
这使得可以在光谱模式方向上计算注意力,通过Transformer模块实现高光谱图像的高效解混。数学上,它可以表示为公式(10):
其中 d 表示一个缩放因子。
3.2 扩散生成调整
本节介绍了一种使用预训练的现成扩散模型生成精确丰度近似值(A~)的方法,该模型通过可训练的条件函数增强。为了在噪声输入(A′)上条件化扩散采样,作者将其表示为从马尔可夫链中的数据驱动中间状态(At)中抽取的样本。然后,作者通过条件概率 p(At∣A′) 直接从 A′ 启动采样过程,如图2所示。
这一表述提出了两个关键问题:i 什么方法将 A′ 映射到马尔可夫链中的中间状态?ii 如何在最佳匹配状态可用时控制预训练的扩散模型生成具有预期语义的图像?为了简化参数调优,作者将 Diff-Unmix 设计为两个阶段,分别解决这些问题:i 马尔可夫链状态匹配;ii 扩散模型反向条件化。
前向扩散过程:前向扩散过程可以看作是一个逐步向数据添加高斯噪声的马尔可夫链。步骤 t 的数据仅依赖于步骤 t−1 的数据。给定 t∈[0,T],转移概率通常假设为高斯分布:
其参数 αt 预设为常数。通过使用重参数化,作者可以找到关于 At 和 S0 的条件分布:
其中 αˉt=∏i=1tαi。然后,在前向过程中,分布 q(At∣A0) 通过逐步向先前状态添加噪声来近似 N(0,1)。
条件函数设计:去噪扩散以其生成能力而闻名。然而,由于 DDPM 中生成过程的固有随机性,即使从 A′ 上的状态 AT 开始,生成具有预期语义的图像仍然具有挑战性。
使用观察到的噪声图像 Y 或 A′ 作为直接条件是一种自然的方法。然而,噪声图像质量较低,无法为低频结构和高频纹理提供有效指导,如图5所示。为了更精确地控制无条件 DDPM 使用观察到的噪声测量,作者采用 Φ 作为条件函数,以自监督的方式推演出条件变量 Ac=Φ(STU(Y))。具体来说,在信号处理中,通常假设噪声信号是由噪声引入到干净信号中的,基于指定的模型。然而,当我们缺乏对这种损坏过程的先验知识时,建立输入 Y 和输出 X 之间的有效映射变得具有挑战性。基于 J-不变性理论,作者提出直接在噪声图像上训练去噪神经网络。使用噪声信号 Y 作为输入,去噪函数 Φ 近似一个精炼的丰度矩阵:
这种方法使 Φ 能够在低维丰度上进行回归,同时结合光谱端元形成 Y′=A^×3E,这对于无监督学习非常重要。这种方法使得:i 仅对 A 进行轻量级 Φ 的训练,以无监督的方式处理整个光谱序列;ii 即使在重噪声情况下也能保持稳定的去噪质量;iii 在去噪波段中实现改进的空间-光谱一致性。在这里,作者通过类似 U-Net 的“沙漏”架构学习 Φ,其详细结构可以在补充材料中找到。
作者提出了一种无监督损失,确保一致性,即:
其中 X^=Φ(A′)×3E,As 是从给定变换集 T 中随机选择的变换,N 是具有已知偏差的高斯噪声。第一项确保测量一致性 Y=Φ(A′)×3E+N,而第二项强制执行变换间的一致性,即 Φ(A′)×3E 对于所有 As∈T。
马尔可夫链状态匹配:一旦通过 Φ 学习到最优映射函数,噪声模型也可以通过将近似残差噪声 N^ 拟合到具有零均值和可变标准差 σ 的高斯分布 N(σ2I)(G-Fit)来获得。在没有任何约束的情况下,N^ 不一定具有零均值,直接拟合可能导致分布均值的偏移。为了解决这个问题,作者提出显式调整 N^ 的均值 为零:
调整后的 N^ 可以用于建模噪声分布 N 并估计参数 σ。回想一下,在扩散模型中,预定义了一个噪声调度 β1,…,βT 来表示马尔可夫链中每个状态的噪声水平。作者通过比较噪声模型与所有可能的后验 p(At) 在 σ 和 βt 方面的差异,来识别 A′ 的匹配状态。具体来说,当找到时间戳 t 使得距离最小化时,认为状态匹配:
其中 ∥⋅∥p 表示 p-范数距离。由于 t 是一个在有限区间 {1,⋯,T} 内的离散整数,作者将优化问题重新表述为代理搜索。
受控反向扩散过程:在状态 At 的匹配表明,给定特定的噪声调度 β,在基线无条件生成过程中至少存在一个来自后验 At 的潜在样本,该样本与提供的输入 A′ 非常接近。因此,可以通过从状态 At 开始的迭代反向过程 p(At−1∣At),以条件 Ac 从 (13) 中采样更精确的图像。在匹配状态 t 和训练好的 ϵθ(⋅,t) 的情况下,反向扩散过程从 At 开始,噪声丰度 At=A′,反向过程更新如下:
其中 zt∼N(0,1),t∈[T]。如 [42, 46] 所述,作者将祖先采样过程 (16) 表述为反向 SDE 的离散化。结合条件 Ac 和估计的端元 E 作为条件变量,作者可以重新表述关于 A 的反向 SDE:
其中 ,w~ 是标准维纳过程的反向。梯度 ∇A(t)logpt(A(t)) 通常称为 A(t) 的得分函数。然后,作者使用祖先采样过程 (16) 的形式离散化反向 SDE (17):
其中 η=αt1−αtγ。在时间 t,作者可以看到采样由两部分组成。第一部分等于从参数化 p(At−1∣At) 中采样,具有固定方差 1−αt。第二部分将样本推向与丰度约束一致的形式。有关 (17) 和 (18) 的详细推导,请参见补充材料。最后,通过将扩散生成调整后的丰度图与光谱端元混合,重建 HSI: