简介
本文介绍了一种用于图像超分辨的Transformer,与之前的一些视觉Transformer模型相比更加轻量化,计算量更小,并占用更小的显存
Lightweight CNN Backbone(LCB)
LCB的作用是提前生成潜在的超分辨特征,使模型获得初始的超分辨能力
High Preserving Block(HPB)
HPB用来降低生成特征的分辨率
HPB中含有High-frequency Filtering Module(HFM)和Adaptive Feature Block(ARFB)

High-frequency Filtering Module(HFM)

HFM的作用是从LR空间中估计图像的高频信息
Adaptive Residual Feature Block(ARFB)
ARFB是一个基础的特征提取模块

ARFB中含有两个Residual Units(RU),两个卷积
RU由Reduction 和 Expansion两个部分组成。
-
Reduction会将特征图的通道减少一半
-
Expansion会将其恢复
residual scaling with adaptive weights(RSA)用来动态调整两个前向分支(残差和主干)的权重。
Lightweight Transformer Backbone(LTB)
与之前的各种视觉Transformer相比,LTB可以以较低的计算代价捕获图像中相似的局部区域的长程依赖关系。
-
图像特征在ET前后的处理

由于展开操作自动反应了每个patch的位置,所以不用进行可学习的位置嵌入,在展开后,这些patch的特征F_p将作为ET的输入,ET的输出与输入形状相同,可以使用Flod操作将输出恢复为特征图。
Efficient Transformer(ET)
ET只使用了Transformer的编码器结构
ET由Efficient Multi-Head Attention和MLP两部分组成,并且在每个部分后都使用了Layer Norm。
具体的计算细节建议看原文

一些实验结果

本文提出了一种轻量级的Transformer模型,专注于图像超分辨任务。该模型包括LightweightCNNBackbone(LCB)来预处理特征,HighPreservingBlock(HPB)结合High-frequencyFilteringModule(HFM)和AdaptiveResidualFeatureBlock(ARFB)进行特征提取。核心的LightweightTransformerBackbone(LTB)利用EfficientTransformer(ET)捕捉长程依赖,减少了计算成本。实验结果显示了模型的有效性。
1023

被折叠的 条评论
为什么被折叠?



