论文题目:Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising_translated
作者:Shuai Hu; Feng Gao; Xiaowei Zhou; Junyu Dong; Qian Du
代码地址:https://github.com/summitgao/HCANet
1. 为什么要关心高光谱图像去噪?
高光谱图像(Hyperspectral Image, HSI)具有数百个光谱波段,能精确刻画物体的光谱特征,因此在 遥感监测、农业植被分析、环境评估、军事侦察 等领域被广泛应用。然而,受传感器精度、环境光照、传输噪声等影响,HSI 常常被噪声污染。这不仅降低了图像质量,还直接影响后续分类、检测和识别等任务。
过去,研究者提出了大量 HSI 去噪方法:
-
传统方法:如低秩分解、稀疏表示、总变分(TV)等,能够利用先验约束抑制噪声,但对复杂噪声的鲁棒性不足。
-
深度学习方法:卷积神经网络(CNN)在捕捉局部空间模式方面表现良好,但容易忽视远距离光谱依赖;而 Transformer 类方法通过自注意力机制建模全局关系,却往往计算开销较大。
👉 因此,真正的挑战在于:如何同时兼顾局部细节和全局依赖,并保持高效。
2. HCANet框架的提出
2.1 核心思想
HCANet(Hybrid Convolutional and Attention Network)正是针对上述矛盾提出的。作者希望通过 卷积与注意力机制的有机结合,实现局部–全局特征的协同建模。
具体来说:
-
卷积分支:高效提取局部纹理与邻域相关性;
-
注意力分支:建模光谱维度的长距离依赖关系;
-
多尺度机制:进一步增强模型对复杂噪声的适应性。
一句话总结:HCANet 就是“卷积的显微镜 + 注意力的望远镜”,让模型既能看清细节,又能把握全局。
2.2 网络结构总览(U-Net 风格 + 多层 CAMixing 模块)
HCANet 的整体框架基于经典的 U-Net,通过 编码器—解码器结构 + 跳跃连接 来实现特征的逐层压缩与逐层恢复。在此基础上,作者在每个阶段都引入了 CAMixing 模块(由 CAFM 与 MSFN 组成),以增强模型在复杂高光谱噪声环境下的特征表达能力。
2.1.1 U-Net 基础框架
-
Encoder(编码器)
逐层下采样输入的高光谱图像,提取不同尺度的语义特征,同时扩大感受野,以便捕捉长距离相关性。 -
Decoder(解码器)
对编码特征进行逐步上采样,并通过跳跃连接融合浅层的细节信息,从而恢复高分辨率的空间结构。 -
Residual Learning(残差学习)
网络输出的是噪声残差,最终的干净图像通过“输入 − 残差”的方式获得。这种方式能有效稳定训练,加快收敛。
为什么选择 U-Net?
高光谱图像包含丰富的空间—光谱结构,U-Net 在捕捉多尺度空间特征和保留细节方面具有天然优势,非常适合该任务。
2.2 CAMixing 模块嵌入
传统 U-Net 在处理高光谱数据时面临两个主要问题:
-
卷积算子局限性:标准卷积善于提取局部模式,但难以建模远距离的光谱相关性;
-
尺度信息不足:单一卷积核尺度下的特征提取,无法同时兼顾局部纹理和全局依赖。
为此,HCANet 在 U-Net 的各个阶段中插入 CAMixing 模块,其内部包含:
-
CAFM(Convolution and Attention Fusion Module):卷积与注意力融合,既保持卷积的局部建模优势,又利用注意力机制捕捉远距离光谱依赖;
-
MSFN(Multi-Scale Feed-Forward Network):在 CAFM 后串联,利用不同尺度的卷积核或扩张卷积,增强多尺度特征表示能力。
2.3 整体优势
这种 U-Net + CAMixing 的设计带来三点关键好处:
-
多尺度建模能力更强
CAFM 专注于局部—全局依赖融合,MSFN 则保证不同尺度的信息提取,两者结合能显著提升对复杂噪声的适应性; -
空间与光谱的协同增强
卷积强化空间结构建模,注意力机制侧重光谱通道间的相关性,从而实现空间—光谱信息的动态融合; -
网络表达更高效
通过残差学习和轻量化的注意力机制,模型在不显著增加参数量的前提下,获得了更强的去噪能力。
2.2 卷积与注意力融合模块CAFM
CAFM 是 HCANet 的核心单元之一,主要目标是同时捕捉局部空间纹理与光谱全局依赖。它被嵌入到编码器和解码器的不同层级,用于在特征提取过程中不断平衡 空间细节建模 和 光谱相关性建模。
CAFM 由两个并行分支和一个融合单元组成:
1)卷积分支(Local Convolution Branch)
-
输入:来自上层的特征图
。
-
操作:
-
使用 分组卷积(Group Convolution) 提取局部邻域特征,降低参数量和计算开销;
-
通过 Channel Shuffle 操作打乱通道顺序,促进不同组之间的信息交互,避免分组卷积带来的通道独立性问题;
-
-
效果:在保持计算效率的同时,增强空间–光谱维度的特征融合,对细粒度的噪声(点状、条纹)更敏感。
💡 Channel Shuffle 作用
在分组卷积中,通道通常被划分为若干组,每组内部只与自己组内的通道交互,组间信息无法流通,就像小团队内部开会,团队间几乎不交流。Channel Shuffle 的作用是将通道按照固定规则重新组合,实现跨组信息交换,同时保留组内通道的相对顺序。
示例(8 个通道分 2 组):
原始分组:
组 1:C1,C2,C3,C4
组 2:C5,C6,C7,C8
Channel Shuffle 操作(reshape → transpose → flatten):
新组 1:C1,C5,C2,C6
新组 2:C3,C7,C4,C8
现在,每组都包含来自不同原始组的通道,实现跨组信息流动,就像团队成员跨组交流。
效果:在保持分组卷积高效性的同时,增强通道间特征融合,提高网络的表达能力。
2)注意力分支(Spectral Attention Branch)
-
输入:同样的特征图 X。
-
操作:
-
线性投影得到 Q,K,V,并计算光谱维度的自注意力:
-
输出全局依赖特征,建模跨波段的长距离相关性。
-
采取跳跃连接,避免注意力处理后信息丢失。
-
-
效果:弥补卷积分支缺乏光谱全局感知的不足,保持光谱维度的连续性。
3)融合单元(Fusion Unit)
- 卷积分支和注意力分支的输出通过逐元素加权相加:
-
最终输出再经过轻量激活,得到兼顾局部与全局的混合特征。
直接逐元素相加类似于 ResNet 的残差连接,不会破坏原有特征,同时平滑梯度传递,有利于训练稳定性。
相加后的特征会进入 MSFN 等后续模块,通过卷积和激活函数进行非线性变换,使网络自动调整融合结果,进一步提升去噪效果。
2.3 多尺度前馈网络MSFN
它可以理解为网络的“放大镜”,用来捕捉不同尺度下的噪声模式,让去噪更稳健。
MSFN 存在两条并行分支,各自负责不同的特征提取任务:
1. 上分支:多尺度空洞卷积
-
先用 1×1 卷积提高通道数,增强特征表达空间;
-
再通过 膨胀率分别为 2 和 3 的空洞卷积捕获不同尺度的上下文信息和特征;
-
两个尺度的特征在通道维度拼接后输出,形成融合特征
。
空洞卷积通过在卷积核元素之间引入空洞(dilation),可以在 不增加卷积核大小或参数量 的情况下,扩大感受野:
2. 下分支:局部卷积处理细节
-
同样先经过 1×1 卷积调整通道数;
-
使用 3×3×3 卷积核提取局部特征,再经过 GeLU 激活得到非线性输出 。
可以把下分支看作“控制开关”,调节上分支特征的重要性。
特征融合与通道还原
上下分支的输出通过 逐元素相乘融合,得到融合特征 :
事实上可以理解一种“AND”操作,只有当上分支(大尺度下)以及下分支(局部下)都认为重要的部分才会被放大
最后,用 1×1 卷积将通道数还原为原始输入通道数,得到 MSFN 最终输出
2.4 损失函数
1)L1重建损失:衡量去噪图像与原始带噪图像的差异
2)全局梯度正则化器:
其中, ∇h、∇_h 、 ∇v和∇s分别∇_v 和∇_s 分别表示沿水平、垂直和光谱轴应用的梯度算子。
3)总损失:
3. 实验设计
3.1 数据集和评价指标
数据集选用ICVL Hyperspectral Data Set作为训练数据集、Pavia University Hyperspectral Dataset作为测试数据。选用以下三个指标:
1)PSNR(峰值信噪比):越大越好,代表图像质量
2)SSIM(结构相似性):越大越好,代表结构保持能力
3)SAM(光谱角映射):越小越好,代表光谱一致性
3.2 噪声设计
论文分别选用单高斯噪声、高斯+条纹、高斯+Deadline、高斯+脉冲、以及混合噪声(高斯+条纹+Deadline+脉冲)作为五个噪声场景进行训练。
3.3 基准对比实验(高斯噪声)
在30-70幅度的高斯及盲噪声下对比:
3.4 基准对比实验(复杂噪声)
在五个噪声场景下进行对比:
4. 结语
总体来看,HCANet 通过卷积与注意力的有机融合,以及多尺度前馈网络的精细调制,实现了对高光谱图像复杂噪声的高效去除。对于需要同时兼顾局部细节与全局光谱信息的 HSI 应用场景,HCANet 提供了一个可借鉴的设计思路。未来,这种方法可以进一步扩展到更大尺度的遥感图像或结合下游任务的联合优化。
504

被折叠的 条评论
为什么被折叠?



