CrossDiff: Exploring Self-Supervised Representation of Pansharpening via Cross-Predictive Diffusion-优快云博客

全色（PAN）图像和相应的多光谱（MS）图像的融合也称为全色锐化，其目的是将PAN的丰富空间细节和MS的光谱信息结合起来。由于缺乏高分辨率 MS 图像，可用的基于深度学习的方法通常遵循降低分辨率训练以及降低分辨率和全分辨率测试的范式。当以原始 MS 和 PAN 图像作为输入时，由于尺度变化，它们总是获得次优结果。在本文中，我们建议通过设计一个名为 CrossDiff 的交叉预测扩散模型来探索全色锐化的自监督表示。它有两个阶段的训练。在第一阶段，我们引入交叉预测借口任务来基于条件DDPM预训练UNet结构，而在第二阶段，UNet的编码器被冻结以直接从PAN和MS中提取空间和光谱特征，并且只有融合头经过训练以适应全色锐化任务。大量的实验表明，与最先进的监督和无监督方法相比，所提出的模型的有效性和优越性。此外，跨传感器实验还验证了所提出的自监督表示学习器对其他卫星数据集的泛化能力。我们将发布我们的代码以实现可重复性。

Contribution

新双阶段框架：设计了一种新的两阶段 pansharpening 范式，探索了 DDPM 在自监督空间和光谱特征提取中的潜力。
交叉预测扩散过程：通过交叉预测扩散过程预训练空间和光谱表示学习者，有效的训练目标促使预训练任务明确学习空间和光谱扩散潜在特征。
优越的性能：冻结预训练模型，仅调整融合头，使得 CrossDiff 在全分辨率和降分辨率下均表现良好，并具备强大的跨传感器泛化能力。

A. 基于深度生成模型的 Pansharpening

深度生成模型，尤其是生成对抗网络（GAN），在 pansharpening 领域的应用得到了快速发展。PSGAN 是第一个在 GAN 框架下生成高质量结果的尝试。利用 GAN 中多个判别器的优势，某些研究设计了双判别器 GAN 方法，其中一个判别器优化纹理保留，另一个用于颜色保留。然而，这些方法通常在降低分辨率的情况下训练，无法有效处理原始尺度的图像，导致性能下降。因此，另一项研究直接在全分辨率图像上训练了基于 GAN 的网络，使用两个判别器分别约束融合结果的空间和光谱一致性。UCGAN 则基于双流生成器提取空间和光谱信息，并引入循环一致性损失以进一步提高 pansharpening 性能。与这些无监督方法不同，有研究设计了基于多尺度 GAN 的“训练即融合”框架，消除了对大量训练数据的依赖。然而，GAN 在训练过程中容易出现不稳定性。相较之下，扩散模型作为另一种生成模型在 AIGC（人工智能生成内容）中引起了广泛关注，但在 pansharpening 中的研究较少。我们提出了一种基于扩散模型的 pansharpening 方法，旨在生成比基于 GAN 的方法更具空间细节的图像。

B. 自监督表示学习

自监督学习（SSL）通过用仅从数据中得出的预训练任务替代人工标注，来学习强大的表示。常见的预训练任务包括图像上色和图像超分辨率，这两者使网络能够通过生成逼真的彩色或高分辨率图像来学习图像的结构、上下文和语义特征。这些学习到的特征可以通过迁移学习转移到下游任务中。一项研究将图像超分辨率引入多聚焦图像融合，模型在超分辨率上训练后可直接使用，无需任何微调。针对 pansharpening，有研究提出了一种基于上色的自监督学习框架，该框架以灰度转化的 MS 图像为输入，训练模型学习其上色。

Method

A. 概述

所提方法的整个训练过程如图 1 所示。CrossDiff 包含一个自监督预训练阶段和一个 pansharpening 适应阶段。

自监督预训练阶段

设计了一个交叉预测的扩散模型，该模型包含一个 P2M 分支和一个 M2P 分支，旨在约束空间和光谱特征的提取。
如图 2 所示，P2M 分支以 PAN 图像 P0 为条件，引导模型通过优化和采样重建 MS 图像。类似地，M2P 分支以上采样的 MS 图像 Mr↑0 为指导，生成 PAN 图像。
此阶段的训练目标建立在建模的噪声之上。

经过交叉预测的自监督预训练后，我们获得两个具有 UNet 结构的噪声预测器。它们的编码器，即 Ep2m和 Em2p，被冻结并作为特征提取器，在 pansharpening 适应阶段提取空间和光谱特征。

Pansharpening 适应阶段

在第二阶段，我们只需训练融合头以使其适应 pansharpening 任务。在推理阶段，使用预训练的编码器和调整后的融合头来获得最终的融合结果。

B. 自监督预训练

自监督预训练通过图 2 所示的交叉预测扩散过程实现。该过程包含 P2M 过程和 M2P 扩散过程。P2M 和 M2P 由两个条件去噪扩散概率模型（DDPM）建模，其中全色图像（PAN）和多光谱图像（MS）分别作为条件进行重建。接下来，我们将从前向和逆向过程的角度介绍交叉预测扩散模型。

图 2：所提议的跨预测自监督任务的框架，其中全色图像（PAN）和上采样的多光谱图像（MS）通过逆过程相互进行预测。

前向扩散过程

从 PAN 图像P0 或上采样的 MS 图像Mr↑0 开始，前向扩散过程逐步添加噪声，生成一系列图像{P1,P2,⋯,PT} 或{Mr↑1,Mr↑2,⋯,Mr↑T}。该过程的数学表达为：

交叉预测逆过程

逆过程是一个交叉预测任务，其中 P2M 和 M2P 都从高斯噪声开始，并使用 UNet 作为噪声预测器，在每个时间步进行采样和图像重建。与条件 DDPM 类似，PAN 和 MS 分别作为 P2M 和 M2P 的 UNet 输入，以相互重建。具体而言，P2M 将 PAN 图像 P0作为条件来生成 MS 图像。在第 t步，P2M 分支的噪声预测器 ϵϕ(⋅) 以 P0、Mr↑t和时间嵌入 t为输入，近似噪声：

噪声预测器

DDPM 引入 UNet 作为噪声预测器，已经被发现能够提高样本质量。在本文中，我们使用简化的 UNet 架构用于 P2M 和 M2P 过程，该架构包含一系列残差层和下采样卷积，随后是一系列带有上采样操作的残差层。具有相同空间大小的特征通过跳跃连接连接。为了训练一个时间依赖的去噪模型，扩散时间步 t 以类似于 Transformer 的正弦位置编码方式指定给每个残差块。噪声预测器的详细架构可在补充材料中找到。

C. Pansharpening 适应

在自监督预训练阶段之后，我们获得了预训练的空间和光谱特征提取器，即Em2p和Ep2m在 pansharpening 适应阶段，这些提取器被冻结，提取空间和光谱特征。

图 3：pansharpening 适应阶段，从预训练的编码器中提取空间和光谱特征，并将其拼接作为融合头的输入。然后获得融合结果 FMS。

注意力引导的融合头

为了使模型适应 pansharpening 任务，我们设计了一个注意力引导的融合头。如图 3 所示，融合头以不同尺度的全色图像（PAN）和上采样的多光谱图像（MS）的拼接特征作为输入。低尺度的特征通过注意力层进行处理，随后上采样并添加到下一个注意力层，以生成高尺度的注意特征。我们使用的注意力层类似于文献中的结构，包含一个带有 Leaky ReLU 的卷积层，随后是一个空间通道注意（scSE）层。

在经过注意力引导的融合后，我们使用两个卷积层重建融合特征。像 PanNet 一样，我们也学习残差图，并通过将残差与上采样的 MS 图像 Mr↑0 结合来获得最终的融合结果。

损失函数

自监督预训练基于预测的噪声（即方程 (2) 和方程 (4)）实现。在 pansharpening 适应阶段，融合头的训练通过无监督损失函数实现。损失函数包含光谱项、空间项和 QNR 项，表示为：

Experiment

Datasets and Evaluation Metrics

数据集

QuickBird (QB)、WorldView-4 (WV-4) 和 WorldView-2 (WV-2)

全分辨率实验评估指标

光谱失真指数Dλ、空间失真指数Ds 和无参考混合质量HQNR

降分辨率实验评估指标

光谱角度映射 (SAM) 、ERGAS 、适用于 4 通道图像 (Q4) 和 8 通道图像 (Q8) 的通用图像质量指数，以及结构相似性指数 (SCC)

对比方法

BT-H 、C-GSA、MTFGLP-HPM-R 和 MTF-GLP-FS

**无监督方法：**ZPNN 、UCGAN、LDPNET 和 GDD

**深度学习方法：**PANNET、BDPN、FGFGAN、NLRNET 和 TANI

跨传感器泛化能力

为了验证自监督交叉预测预训练的有效性，我们进行了实验以探索模型的跨传感器泛化能力。具体而言，使用在 WV-4 数据集上预训练的交叉预测扩散模型提取 QB 数据集的特征表示，利用在 WorldView-3 (WV-3) 上预训练的编码器提取 WV-2 数据集的表示。结果报告在表 I-II 中，其中 CrossDiff* 表示跨传感器预训练模型。注意，这些表中的 ZPNN、UCGAN、LDPNET 和 GDD 是在相同数据集上训练和测试的。我们观察到，当训练和测试样本来自不同卫星传感器时，我们的模型仍然可以获得令人满意的结果，我们认为这是由于交叉预测扩散预训练任务后学习到的潜在特征包含了更通用的空间细节和光谱信息。因此，它们能够轻松适应新的卫星数据集，而无需重新训练，从而大大增强了 CrossDiff 的跨领域泛化能力。

跨传感器泛化能力是指一个模型在一个传感器（或数据集）上训练后，能够有效地在不同的传感器（或数据集）上进行推断或应用的能力。这种能力尤其重要，因为不同传感器可能在数据采集、成像质量、光谱特性等方面存在差异。

全分辨率

使用无监督损失函数，我们在原始 PAN 和 MS 图像上训练融合头。图 4-5 显示了 QB 和 WV-2 数据集上不同方法的视觉比较。可以观察到，UCGAN 和 GDD 的结果存在模糊效应。LDPNET 和 ZPNN 无法保证高光谱保真度，尤其是在建筑物上。此外，在图 4 中，BTH 无法恢复货车的光谱，这与原始 MS 图像不一致。在图 5 中，只有基于 MTF 的传统方法和 CrossDiff 在屋顶上具有高光谱保真度，而 CrossDiff 也考虑了空间一致性，因此获得了更优的结果。定量评估和推理时间见表 I。定性分析和定量比较均表明，CrossDiff 在 QB 和 WV-2 数据集上优于其他方法。

降分辨率

在本实验中，我们根据 Wald 的协议准备训练样本，通过常用的 L1 损失训练融合头。由于页面限制，视觉化结果已提供在补充材料中。这里，我们在表 II 中呈现定量结果。我们可以从表 II 中观察到，我们的方法在所有指标上均优于比较方法，除了 WV-2 数据集上的 ERGAS。结果表明，使用自监督交叉预测扩散过程预训练的冻结编码器也能够提升降分辨率下的 pansharpening 性能。我们只需用监督损失函数训练融合头，从而提高了我们的模型的灵活性。

VI. 消融研究

跨预测预训练任务的影响

为了验证跨预测预训练任务对最终融合结果的影响，我们随机初始化 UNet 的编码器，并与融合头一起使用无监督损失进行训练。表 III 的第一行和最后一行的比较表明，模型从跨预测预训练中获益更多。

跨预测扩散模型的训练目标探讨

扩散模型的优化目标可以是最小化预测噪声 [19] 或最小化重建的干净图像 [35]。我们使用两种类型的训练目标来训练跨预测扩散过程。从表 III 的第二行和最后一行可以看出，预测噪声的模型在 \( D_s \) 和 \( HQNR \) 指标上表现更好，而在 \( D_\lambda \) 指标上表现相当，这表明噪声预测器更适合我们的跨预测任务。

注意力引导的融合头的影响

为了研究注意力引导的效果，我们进行了去除融合头中的 scSE 层的实验。实验结果显示在表 III 的第三行。从表中可以观察到，注意力引导有利于光谱保留。尽管去除注意力引导的融合头降低了空间失真指数，但显著提高了综合 \( HQNR \) 指数，这验证了注意力机制在融合指导中的重要性。

Conclusion

我们提出了一种名为 CrossDiff 的跨预测扩散模型，以增强 pansharpening 任务中的自监督表示。该模型基于以下原则设计：

跨预测预训练任务：该模型利用前向扩散过程和反向去噪过程，类似于去噪扩散概率模型（DDPM）。在这个设置中，使用全色（PAN）图像预测多光谱（MS）图像，同时利用多光谱图像重建全色图像。
自监督训练：通过这种跨预测训练方法，噪声预测器中的编码器有效地转变为空间和光谱特征提取器。这种设计能够在不需要标注数据的情况下，获取丰富的特征表示。
冻结特征提取器：在预训练后，特征提取器被冻结以保持其学习到的表示。然后，融合头在无监督的方式下使用原始的 MS 和 PAN 图像对进行训练，这有助于减轻尺度变化问题。
实验验证：在多个卫星数据集上进行的广泛实验验证了提出方法的有效性。结果表明，CrossDiff 不仅在 pansharpening 任务中表现出色，还展现了优越的跨传感器泛化能力。
跨传感器泛化：预训练的扩散模型可以作为有效的空间和光谱特征提取器，适用于其他卫星数据集，而无需重新训练。