【每天一篇深度学习论文】(CVPR)大核卷积+Attention的高效图像去雨方法

论文介绍

题目:

Dilated Convolutional Transformer for High-Quality Image Deraining

论文地址:

链接: https://openaccess.thecvf.com/content/CVPR2023W/UG2/papers/Li_Dilated_Convolutional_Transformer_for_High-Quality_Image_Deraining_CVPRW_2023_paper.pdf

创新点

论文提出了一种名为Dilated Convolutional Transformer 的高效图像去雨方法,通过结合扩张卷积和Transformer架构,扩大了网络的感受野并生成了丰富的上下文特征表示,从而在图像去雨任务中实现了高质量的图像重建。

  • 结合CNN和Transformer
    • 该研究提出了一种有效的去雨方法,即Dilated Convolutional Transformer(DCT),它结合了卷积神经网络(CNN)和Transformer的属性,以提高图像去雨的性能。
  • 扩大感受野
    • DCT通过使用扩张卷积操作来扩大网络的感受野,从而聚合全局信息,这有助于提高图像质量。
  • Dilform Block
    • DCT的核心是dilform block,它包含两个精心设计的组件:multi-dilconv sparse attention(MDSA)和multi-dilconv feedforward network(MDFN)。
  • MDSA(Multi-Dilconv Sparse Attention)
    • MDSA通过计算多尺度查询来生成准确的相似性图,以便更好地利用丰富的多尺度信息进行高质量图像重建。
  • MDFN(Multi-Dilconv Feedforward Network)
    • MDFN旨在更好地整合不同尺度的雨信息,在特征转换中发挥作用。
  • 激活函数的改进
    • 为了在Transformer中加强稀疏性,文章采用了ReLU激活函数来替代原始的softmax函数,以实现更好的特征聚合。
  • 多尺度融合
    • 该模型设计了基于多尺度融合的新型MDFN,充分利用雨信息来丰富层级间的特征转换。

方法

模型总体架构

输入输出:

模型接收雨迹图像作为输入,并输出去雨后的干净图像。

网络结构:

模型由多个编码器和解码器单元组成,这些单元堆叠在一起,用于提取雨迹分布的特征。

特征连接:

通过跳跃连接将编码器和解码器的特征结合起来,帮助恢复干净的图像。

核心组件:

模型的核心是dilform块,它包含两个主要部分:

  • MDSA:用于从全局范围内聚合特征。
  • MDFN:用于处理和整合不同尺度的雨迹信息。
    在这里插入图片描述

核心模块描述

1. Multi-Dilconv Sparse Attention (MDSA)

MDSA模块的目的是从全局范围内聚合特征,以帮助模型更好地理解和去除图像中的雨迹。这个模块的关键特点包括:

  • 多尺度查询:MDSA通过使用不同扩张率的扩张卷积来计算多尺度查询,这样可以在不同尺度上捕捉图像的特征,增强模型对不同大小雨迹的识别能力。

  • 相似性聚合:通过计算查询和键之间的相似性,MDSA能够识别出哪些特征是相关的,从而更有效地聚合全局信息。

  • 稀疏注意力机制:MDSA使用ReLU激活函数替代传统的softmax函数,这样做可以强化模型的稀疏性,即只关注那些最重要的特征,从而提高特征聚合的效果。

2. Multi-Dilconv Feedforward Network (MDFN)

MDFN模块旨在增强模型对局部雨迹的表征能力,并整合不同尺度的雨迹信息。这个模块的关键特点包括:

  • 多尺度特征融合:MDFN通过使用不同扩张率的扩张卷积来处理特征,这样可以在不同尺度上捕捉雨迹的细节,增强模型对局部雨迹的识别和处理能力。

  • 扩张卷积的应用:通过随机选择不同的扩张率,MDFN能够在不增加额外模块的情况下自动扩展网络的感受野,这对于去除不同形态的雨迹非常重要。

  • 非线性变换:MDFN允许数据在每个token上进行非线性变换,这有助于模型捕捉更复杂的雨迹特征,并提高去雨效果。

这两个核心模块共同工作,使得DCT模型能够有效地结合局部和全局信息,实现高质量的图像去雨效果。MDSA负责聚合全局特征,而MDFN则专注于处理和整合局部特征,两者的结合使得模型在去雨任务上表现出色。

即插即用模块作用

MDSA(Multi-Dilconv Sparse Attention)和MDFN(Multi-Dilconv Feedforward Network)这两个模块由于其设计特性,可以适用于以下类型的任务和网络结构中,特别是在需要特征融合、多尺度处理和增强模型感受野的场景中:

适用任务:

  1. 图像恢复

    • 图像去雨、去雾、去噪、超分辨率等任务,这些任务需要模型能够理解和处理图像中的复杂细节。
  2. 语义分割

    • 在语义分割中,特征融合可以帮助模型更好地理解图像内容,提高分割的准确性。
  3. 目标检测

    • 特征融合可以增强目标的表示,尤其是在处理小目标或遮挡目标时。
  4. 图像分类

    • 尤其是在处理需要全局和局部信息结合的复杂分类任务时。
  5. 图像生成

    • 如风格迁移、图像到图像的转换等,这些任务需要模型能够捕捉和融合不同尺度的特征。

适用结构:

  1. 编码器-解码器结构

    • 这种结构常用于图像恢复任务,MDSA和MDFN可以作为编码器或解码器的一部分,增强特征提取和融合能力。
  2. U-Net结构

    • U-Net结构广泛应用于医学图像分割等领域,MDSA和MDFN可以集成到U-Net的下采样和上采样路径中,提升特征融合效果。
  3. Transformer结构

    • 由于MDSA和MDFN具有处理多尺度特征的能力,它们可以与Transformer结构结合,增强其处理图像的能力。
  4. 卷积神经网络(CNN)

    • 传统的CNN结构可以通过集成MDSA和MDFN模块来增强其特征提取和融合的能力,尤其是在需要处理多尺度信息的任务中。
  5. 注意力机制网络

    • 任何依赖于注意力机制来提升性能的网络结构,MDSA可以作为一个增强的注意力模块,提供更有效的特征聚合。
  6. 多尺度处理网络

    • 需要处理不同尺度特征的网络,如多尺度特征融合网络,MDFN可以作为一个核心组件来增强模型的多尺度处理能力。

总的来说,MDSA和MDFN模块的灵活性和多功能性使它们可以集成到多种不同的网络结构中,以提升模型在处理视觉任务时的性能。

消融实验结果

在这里插入图片描述

  • 消融实验部分主要验证了Dilated Convolutional Transformer(DCT)模型中不同组件和设计选择对性能的影响。实验对比了深度卷积与扩张卷积、单尺度与多尺度查询、相同与不同扩张率以及ReLU与Softmax激活函数的效果。
  • 通过这些对比,实验发现DCT模型的每个设计选择都对提高去雨性能有积极作用,其中最优配置在Rain100H数据集上展现了最好的PSNR和SSIM评分。这些结果支持了DCT模型设计的有效性,并展示了模型在实际去雨任务中的优越性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值