【每天一篇深度学习论文】（CVPR）大核卷积+Attention的高效图像去雨方法

Better Rose

已于 2025-04-15 16:58:26 修改

阅读量1k

点赞数 11

分类专栏：深度学习文章标签：深度学习人工智能

于 2024-12-04 09:41:04 首次发布

本文链接：https://blog.youkuaiyun.com/Magnolia_He/article/details/144229874

版权

38 篇文章

订阅专栏

论文介绍

Dilated Convolutional Transformer for High-Quality Image Deraining

论文提出了一种名为Dilated Convolutional Transformer 的高效图像去雨方法，通过结合扩张卷积和Transformer架构，扩大了网络的感受野并生成了丰富的上下文特征表示，从而在图像去雨任务中实现了高质量的图像重建。

结合CNN和Transformer：
- 该研究提出了一种有效的去雨方法，即Dilated Convolutional Transformer（DCT），它结合了卷积神经网络（CNN）和Transformer的属性，以提高图像去雨的性能。
扩大感受野：
- DCT通过使用扩张卷积操作来扩大网络的感受野，从而聚合全局信息，这有助于提高图像质量。
Dilform Block：
- DCT的核心是dilform block，它包含两个精心设计的组件：multi-dilconv sparse attention（MDSA）和multi-dilconv feedforward network（MDFN）。
MDSA（Multi-Dilconv Sparse Attention）：
- MDSA通过计算多尺度查询来生成准确的相似性图，以便更好地利用丰富的多尺度信息进行高质量图像重建。
MDFN（Multi-Dilconv Feedforward Network）：
- MDFN旨在更好地整合不同尺度的雨信息，在特征转换中发挥作用。
激活函数的改进：
- 为了在Transformer中加强稀疏性，文章采用了ReLU激活函数来替代原始的softmax函数，以实现更好的特征聚合。
多尺度融合：
- 该模型设计了基于多尺度融合的新型MDFN，充分利用雨信息来丰富层级间的特征转换。

模型接收雨迹图像作为输入，并输出去雨后的干净图像。

模型由多个编码器和解码器单元组成，这些单元堆叠在一起，用于提取雨迹分布的特征。

通过跳跃连接将编码器和解码器的特征结合起来，帮助恢复干净的图像。

模型的核心是dilform块，它包含两个主要部分：

MDSA模块的目的是从全局范围内聚合特征，以帮助模型更好地理解和去除图像中的雨迹。这个模块的关键特点包括：

多尺度查询：MDSA通过使用不同扩张率的扩张卷积来计算多尺度查询，这样可以在不同尺度上捕捉图像的特征，增强模型对不同大小雨迹的识别能力。
相似性聚合：通过计算查询和键之间的相似性，MDSA能够识别出哪些特征是相关的，从而更有效地聚合全局信息。
稀疏注意力机制：MDSA使用ReLU激活函数替代传统的softmax函数，这样做可以强化模型的稀疏性，即只关注那些最重要的特征，从而提高特征聚合的效果。

MDFN模块旨在增强模型对局部雨迹的表征能力，并整合不同尺度的雨迹信息。这个模块的关键特点包括：

这两个核心模块共同工作，使得DCT模型能够有效地结合局部和全局信息，实现高质量的图像去雨效果。MDSA负责聚合全局特征，而MDFN则专注于处理和整合局部特征，两者的结合使得模型在去雨任务上表现出色。

MDSA（Multi-Dilconv Sparse Attention）和MDFN（Multi-Dilconv Feedforward Network）这两个模块由于其设计特性，可以适用于以下类型的任务和网络结构中，特别是在需要特征融合、多尺度处理和增强模型感受野的场景中：

总的来说，MDSA和MDFN模块的灵活性和多功能性使它们可以集成到多种不同的网络结构中，以提升模型在处理视觉任务时的性能。

在这里插入图片描述

消融实验部分主要验证了Dilated Convolutional Transformer（DCT）模型中不同组件和设计选择对性能的影响。实验对比了深度卷积与扩张卷积、单尺度与多尺度查询、相同与不同扩张率以及ReLU与Softmax激活函数的效果。
通过这些对比，实验发现DCT模型的每个设计选择都对提高去雨性能有积极作用，其中最优配置在Rain100H数据集上展现了最好的PSNR和SSIM评分。这些结果支持了DCT模型设计的有效性，并展示了模型在实际去雨任务中的优越性能。