DEA-Net: Single image dehazing based on detail-enhanced convolution and content-guided attention

309摸鱼巨人

已于 2025-04-02 18:01:53 修改

阅读量937

点赞数 20

CC 4.0 BY-SA版权

分类专栏：论文阅读100篇文章标签： transformer 论文阅读计算机视觉深度学习

于 2025-04-02 18:01:37 首次发布

本文链接：https://blog.youkuaiyun.com/MagicFromMe/article/details/146949445

论文阅读100篇专栏收录该内容

8 篇文章

订阅专栏

DEA-Net: Single image dehazing based on detail-enhanced convolution and content-guided attention
DEA-Net：基于细节增强卷积和内容引导注意力的单幅图像去雾
请添加图片描述
这篇论文提出了一种新的特征融合方式，也就是在跳连接操作时，将编码器与解码器对于的特征进行融合。在特征融合的时候，本文也利用了通道、空间注意力机制，提出了一个像素注意力，它是基于空间注意力和通道注意力机制，得到一个空间重要性图，下面来详细介绍一下。

1. 简介

该论文提出了一种细节增强注意力块（DEAB），由由细节增强卷积（DEConv）和内容引导注意力（CGA）组成。具体来说，DEConv 将先验信息整合到普通卷积层中，以增强表示能力和泛化能力。然后，通过使用重参数化技术，DEConv 被等效转换为普通的卷积层，且不引入额外的参数和计算成本。CGA 通过为每个通道分配独特的空间重要性图（SIM），能够关注特征中编码的更有用的信息。此外，我们还提出了一种基于 CGA 的混合融合方案，用于有效融合特征并辅助梯度流动。（上面是原论文类容）
简单来说，DEA-Net提出双模块协同框架，通过细节增强卷积（DEC）和内容引导注意力（CGA），针对性解决细节丢失与非均匀去雾问题：

细节增强卷积（DEC）：通过多尺度特征融合与残差学习，强化高频细节恢复。
内容引导注意力（CGA）：动态分配注意力权重，区分雾霾区域与内容结构，避免过度处理。

2. 网络结构

该网络采用的也是编码器-解码器结构，请添加图片描述
仔细看了它的网络结构图，就是一个UNet的变种，采用对称结构，编码器提取多尺度特征，解码器逐步恢复清晰图像。

DEC模块：嵌入在编码器中，增强细节特征。
CGA模块：位于解码器阶段，引导注意力分配。

2.1 Detail-enhanced Convolution（细节增强卷积）

请添加图片描述
上图是论文中提到的细节增强卷积模块，该模块包含了四个差分卷积（DC）和一个普通卷积，并行部署用于特征提取。该模块该兴趣的可以去看看原文章，我想分享的是后面的模块。

2.2 Content-guided Attention（内容引导注意力）

之前在分享MIFNet这篇论文是也提到过FAM，也就是特征注意力模块，它是由通道注意力和空间注意力组成，和CBAM一样，二者依次排列以计算通道维度和空间维度的注意力权重，具体的细节可以看这个。本论文中提到了，空间注意力计算一个空间重要性图（SIM），用以自适应地只是不同区域的重要性水平，对于每个特征通道，我们考虑信息在空间维度上分布不均匀这样的情况，印社需要通道特定的SIM，并且还要保证通道和空间之间要有信心的交换，基于上面的情况，作者提出了内容引导注意力（CGA），论文中这么说“以粗到细的方式为输入特征的每个通道生成专属的空间重要性图，同时充分混合通道注意力权重和空间注意力权重，保证信息交换。”CGA的详细过程如下图所示：
请添加图片描述
首先CGA的目的是为了生存通道特点的SIM，维度与输入 $X$ 是一样的，如上图所示，我们通过简单的加法操作将 $W_c,W_s$ 混合在一起，此时得到粗略的 $SIM W_{coa}$ ，接下来进行的精细化操作就是根据输入特征去调整 $W_{coa}$ 的每个通道，得到最终的 $S I M W$ ，“ $W_{coa}和X$ 的每个通道通过通道混洗操作交替重排”： $\sigma(GC_{7\times7}(CS([X,W_{coa}])))$ （ $CS ()$ 表示通道混洗操作），CGA为每个通道分配唯一的SIM，引导模型关注每个通道的重要区域。这样就能衡量特征图中不同空间位置的重要性了。

2.3 CGA-based Mixup Fusion Scheme（基于CGA的Mixup融合方案）

深层特征和浅层特征所编码的信息差异巨大，因为感受野的不同，深层特征中的单个像素来源于浅层特征中的一篇区域，该方案通过学习的空间权重对特征进行调剂，从而自适应地融合编码器的低级特征与对于的高级特征，如下图所示：
请添加图片描述
编码器部分的低级特征和对应的高级特征被输入到CGA中一计算权重，然后通过加权求和方法进行组合，这一部分还是很好理解的。

3. 实验

还是在UNetFormer的架构上进行尝试，基础模型还是U-Net，在UNetFormer中，作者在跳连接部分使用的是WF，就是引入了两个可学习的参数，分别去对编码器和解码器的特征进行加强，然后再融合，当看了这篇文中后，他也提出了一个特征融合模块，因此想着可以替换掉之前的WF来看看效果。分割图如下，分割效果还是挺好的：
在这里插入图片描述
在来看一下各项指标：
请添加图片描述
没啥提升。