文章题目:SwinIR: Image Restoration Using Swin Transformer
文章地址:https://arxiv.org/pdf/2108.10257.pdf
代码地址:https://github.com/JingyunLiang/SwinIR
应用领域:图像超分(经典、轻量级和真实世界图像超分)、图像去噪(灰度和彩色图像去噪)、JPEG压缩伪影减少
发表时间:2021
作者:Jingyun Liang 作者github主页
摘要
提出了一种基于Swin Transformer的强基线模型SwinIR,用于图像恢复。SwinIR由三部分组成:浅层特征提取、深层特征提取和高质量图像重建。特别是,深度特征提取模块由多个残差Swin Transformer块(RSTB)组成,每个块都有多个Swin Transformer层和一个残差连接。
动机(解决了什么问题)
卷积网络存在的问题:
- 图像和卷积核之间的交互是内容无关的,使用相同的卷积核来恢复不同图像区域可能不是最好的选择。
- 其次,在局部处理的原则下,卷积对于长程依赖建模并不有效
transformer:
设计了一种自注意力机制来捕获上下文之间的全局交互。然而,用于图像恢复的视觉Transformer通常将输入图像划分为固定大小(例如48*48)的块,并独立处理每个块。这种策略不可避免地会带来两个缺点:
- 便捷像素不能利用块之外的相邻像素来进行图像恢复。
- 其次,恢复的图像可能会在每个补丁周围引入边界伪影。虽然这个问题可以通过补丁重叠来缓解,但它会带来额外的计算负担。
Swin Transformer:
集成了CNN和Transformer的优点。一方面,由于局部注意力机制,它具有CNN处理大尺寸图像的优势。另一方面,它具有Transformer的优势,可以通过移位窗口方案对远程依赖关系进行建模。
创新点(如何解决的)
由此本文提出一种基于 Swin Transformer 的图像恢复模型,即 SwinIR。
更具体地说,SwinIR由三个模块组成:浅层特征提取、深层特征提取和高质量图像重建模块。
- 浅层特征提取模块使用卷积层提取浅层特征,直接传输到重建模块以保留低频信息。
- 深度特征提取模块主要由残差 Swin Transformer 块(RSTB)组成,每个块利用多个 Swin Transformer 层进行局部注意力和跨窗口交互。此外,我们在块的末尾添加了一个卷积层来进行特征增强,并使用残差连接来为特征聚合提供捷径。
- 最后,在重建模块中融合浅层和深层特征,以实现高质量的图像重建。
与流行的基于 CNN 的图像恢复模型相比,基于 Transformer 的 SwinIR 有几个好处:
- 图像内容和注意力权重之间基于内容的交互,可以解释为空间变化的卷积。
- 通过移位窗口机制实现远程依赖建模。
- 用更少的参数获得更好的性能。 例如,如图1所示,与现有的图像SR方法相比,SwinIR以更少的参数实现了更好的PSNR。
网络结构
Shallow and deep Feature Extraction
使用 3 × 3 卷积层 H S F ( ⋅ ) H_{SF}(\cdot) HSF(⋅) 来提取浅层特征: F 0 = H S F ( I L Q ) F_{0