【笔记】Transformer for Single Image Super-Resolution

最新推荐文章于 2025-11-12 09:58:57 发布

原创最新推荐文章于 2025-11-12 09:58:57 发布 · 666 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#计算机视觉 #图像处理 #超分辨率重建

本文提出了一种轻量级的Transformer模型，专注于图像超分辨任务。该模型包括LightweightCNNBackbone（LCB）来预处理特征，HighPreservingBlock（HPB）结合High-frequencyFilteringModule（HFM）和AdaptiveResidualFeatureBlock（ARFB）进行特征提取。核心的LightweightTransformerBackbone（LTB）利用EfficientTransformer（ET）捕捉长程依赖，减少了计算成本。实验结果显示了模型的有效性。

部署运行你感兴趣的模型镜像

简介

本文介绍了一种用于图像超分辨的Transformer，与之前的一些视觉Transformer模型相比更加轻量化，计算量更小，并占用更小的显存

Lightweight CNN Backbone（LCB）

LCB的作用是提前生成潜在的超分辨特征，使模型获得初始的超分辨能力

High Preserving Block（HPB）

HPB用来降低生成特征的分辨率

HPB中含有High-frequency Filtering Module（HFM）和Adaptive Feature Block（ARFB）

High-frequency Filtering Module（HFM）

HFM的作用是从LR空间中估计图像的高频信息

Adaptive Residual Feature Block（ARFB）

ARFB是一个基础的特征提取模块

ARFB中含有两个Residual Units（RU），两个卷积

RU由Reduction 和 Expansion两个部分组成。

Reduction会将特征图的通道减少一半
Expansion会将其恢复

residual scaling with adaptive weights（RSA）用来动态调整两个前向分支（残差和主干）的权重。

Lightweight Transformer Backbone（LTB）

与之前的各种视觉Transformer相比，LTB可以以较低的计算代价捕获图像中相似的局部区域的长程依赖关系。

图像特征在ET前后的处理

由于展开操作自动反应了每个patch的位置，所以不用进行可学习的位置嵌入，在展开后，这些patch的特征F_p将作为ET的输入，ET的输出与输入形状相同，可以使用Flod操作将输出恢复为特征图。

Efficient Transformer(ET)

ET只使用了Transformer的编码器结构

ET由Efficient Multi-Head Attention和MLP两部分组成，并且在每个部分后都使用了Layer Norm。

具体的计算细节建议看原文

一些实验结果

您可能感兴趣的与本文相关的镜像

Qwen-Image-Edit-2509

Qwen-Image-Edit-2509

图片编辑

Qwen

Qwen-Image-Edit-2509 是阿里巴巴通义千问团队于2025年9月发布的最新图像编辑AI模型，主要支持多图编辑，包括“人物+人物”、“人物+商品”等组合玩法

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。