2022-Activating More Pixels in Image Super-Resolution Transformer(HAT)
基本信息
作者: Xiangyu Chen, Xintao Wang, Jiantao Zhou, and Chao Dong
期刊:
引用:
摘要: 基于 Transformer 的方法在图像超分辨率等低级视觉任务中表现出令人印象深刻的性能。然而,我们发现这些网络只能通过归因分析利用有限空间范围的输入信息。这意味着 Transformer 的潜力在现有网络中仍未得到充分利用。为了激活更多的输入像素进行重建,我们提出了一种新颖的混合注意力转换器 (HAT)。它结合了通道注意力(CAB)和自注意力([S]W-MSA)方案,从而利用它们的互补优势。此外,为了更好地聚合跨窗口信息,我们引入了重叠交叉注意模块(OCAB)来增强相邻窗口特征之间的交互。在训练阶段,我们额外提出了一种相同任务的预训练策略,以带来进一步的改进。大量实验证明了所提出模块的有效性,整体方法明显优于最先进的方法 1dB 以上。
1.简介
在SISR领域中,近些年均使用法国CNN的方法,获得了很好的效果,最近Transformer在NLP领域的成功带动了其在高级视觉任务中的发展,随后其在低级视觉任务方面也起到了很好的效果,尤其是Swin-Transformer。受到Swing-Transformer启发最近兴起的SISR算法是SwinIR。
“为什么 Transformer 比 CNN 更好”?一个直观的解释是,这种网络可以受益于自我注意机制并利用远程信息。然而,我们采用归因分析方法 LAM [14] 来检查 SwinIR 中

提出HAT模型,结合通道注意力与自注意力,引入重叠交叉注意力模块,增强跨窗口信息聚合,利用同任务预训练策略,大幅提升图像超分辨率性能。
最低0.47元/天 解锁文章
355





