继续新一周的超分论文学习
在视觉Transformer领域,一个公认的悖论是:性能与效率难以兼得。堆叠更多的自注意力层可以提升模型能力,但随之而来的平方级计算增长却让人望而却步。现有的轻量化工作多在窗口注意力、稀疏化上做文章,直至AAAI 2025的ASID论文提出一个根本性的设问:我们真的需要在每一层都重新计算注意力吗? 基于对图像空间关系相对稳定性的深刻洞察,ASID给出了颠覆性的“否定”答案,并由此设计出通过“共享注意力”来实现极致压缩的IDB模块。这项研究不仅提供了一个高性能模型,更可能为我们设计下一代高效Transformer开辟一条新路径。
- 本周论文: Efficient Attention-Sharing Information Distillation Transformer for Lightweight Single Image Super-Resolution
- 来源: AAAI 2025
- 链接: https://arxiv.org/pdf/2501.15774
- 代码: https://github.com/saturnian77/ASID
文章贡献
根据文章内容,作者认为本文的贡献如下:
- 提出新型的轻量型SR模型,结合了信息蒸馏设计机制和transformer框架
- 提出具有注意力共享的特征蒸馏框架,缓解自注意力层的计算效率瓶颈
本网络的核心就是 IDB,IDB的核心其实就是 注意力共享。从局部和全局两个层面,进行注意力共享,同时在一个IDB中进行蒸馏分层,进一步提取重要特征信息。其他操作均为传统transformer计算。
方法论
本网络总体设计如下图(截自论文):

总体结构如下:
-
浅层特征提取:3*3 卷积 Hs 对输入的低分辨率图像 ILR 提取浅层特征 F0 : F0=Hs(ILR)F_0 = H_s(I_{LR})F0=Hs(ILR) ,从RGB映射到多channel
-
深层特征提取 - 信息蒸馏块(Information Distillation Blocks, IDB):
经过多个IDB 和一个 33的 conv Hd 提取深层特征 Fd ,具体公式如下:
F1,A=HIDB1(F0)Fi=HIDBi(Fi−1,A),i=2,...,NFd=Hd(FN)\begin{aligned} & F_1,A = H_{IDB_1}(F_0) \\ & F_i = H_{IDB_i}(F_{i-1}, A), i=2,...,N \\ & F_d = H_d(F_N) \end{aligned}F1,A=HIDB1(F0)Fi=HIDBi(Fi−1,A),i=2,...,NFd=Hd(FN)
其中,HIDBiH_{IDB_i}HIDBi表示第 i 个IDB,A为注意力矩阵,N为IDB数量。
核心IDB部分的详细结构如下图:

此图中,第一行为 第一个 IDB,第二行为第二个及后续的IDB。第一个IDB块在计算过程中通过SAM生成注意力矩阵,传递给后续的IDB进行使用。每个IDB中经过三层分级获取不同层级的特征并进行拼接后输出。
第一个IDB可用公式表示为:F1,A1=SAM1(LM1(Fin))F1refined,F1coarse=Split(F1)F2,A2=SAM2(LM2(F1coarse))F2refined,F2coarse=Split(F2)F3,A3=SAM3(LM3(F2coarse))\begin{aligned} & F_1,A_1 = SAM_1(LM_1(F_{in})) \\ & F_1^{refined}, F_1^{coarse} = Split(F_1) \\ & F_2, A_2 = SAM_2(LM_2(F_1^{coarse})) \\ & F_2^{refined}, F_2^{coarse} = Split(F_2) \\ & F_3, A_3 = SAM_3(LM_3(F_2^{coarse})) \end{aligned}F1,A1=SAM1(LM1(Fin))F1refined,F1coarse=Split(F1)F2,A2=SAM2(LM2(F1coarse))F2refined,F2coarse=Split(F2)F3,A3=SAM3(LM3(F2coarse))
Split即为蒸馏操作,划分出精炼特征(Refined) 和粗糙特征(Coarse)。精炼特征被认为是该单元提取出的最重要信息,被暂时保存。粗糙特征则传递给下一个单元继续处理。
后续的IDB使用上一个IDB所传递下来的A,可用公式表示:F1refined,F1coarse=Split(SAM1(LM1(F),A1))F2refined,F2coarse=Split(SAM2(LM2(F1coarse),A2))F3=SAM3(LM3(F2coarse,A3))\begin{aligned} & F_1^{refined}, F_1^{coarse} = Split(SAM_1(LM_1(F),A_1)) \\ & F_2^{refined}, F_2^{coarse} = Split(SAM_2(LM_2(F_1^{coarse}),A_2)) \\& F_3 = SAM_3(LM_3(F_2^{coarse},A_3)) \end{aligned}F1refined,F1coarse=Split(SAM1(LM1(F),A1))F2refined,F2coarse=Split(SAM2(LM2(F1coarse),A2))F3=SAM3(LM3(F2coarse,A3))
每个IDB后续的拼接和卷积操作表示为:Frefined=Conv1×1(Concat(F1refined,F2refined,F3))Fout=ESA(CAM(Frefined)+F)\begin{aligned} & F^{refined} = Conv_{1 \times 1}(Concat(F_1^{refined}, F_2^{refined}, F_3)) \\ & F_{out} = ESA(CAM(F^{refined}) + F) \end{aligned}Frefined=Conv1×1(Concat(F1refined,F2refined,F3))Fout=ESA(CAM(Frefined)+F)
其中,PW-CONV为 pixel-wise convolution,11 卷积,CAM为 Channel Attention Module,SAM为Spatial Attention Module,ESA为enhanced spatial-attention operation。-
Local Module(LM)
LM在SAM之前,所以SAM可以使用局部信息来计算空间关联性矩阵。LM包括两个 pixel-wise convolution,一个 deep-wise convolution,一个 squeeze-and-excitation -
SAM和CAM
均是通过一个非重叠窗口来计算自注意力,这两个模块的操作都经过了两个阶段,即局部窗口和全局窗口(meso-level and global-level)
首先,将输入特征 f 划分为中观和全局两种窗口模式。- 对于局部窗口,按 划分尺寸 P 划分为多个窗口,每个窗口内进行注意力计算
- 对于全局窗口,按 划分尺寸 G 划分为多个窗口,针对每个窗口中的相同 channel的信息,进行注意力计算
然后进行常规的 transformer计算操作
-
注意力分享和通道划分
从第二个IDB开始,不需要再去计算每一个层的注意力矩阵,直接使用上一个IDB传递下来的即可,降低了计算量。通道划分限制了通道数量,减少了计算负荷和参数量。二者结合总体降低了计算复杂度和总体参数量 。
通道划分即为IDB中的split操作。
内部模块详细的结构如下图:

-
-
图像重建 上采样 Hup
ISR=Hup(F0+Fd)I_{SR} = H_{up}(F_0 + F_d)ISR=Hup(F0+Fd)
通过像素混洗(pixel-shuffle layer)将通道转回RGB以输出HR图像
总结
ASID网络的成功,远不止于在benchmark上刷出了几个新的SOTA分数。它的真正价值在于,为我们提供了一种突破“性能-效率”权衡的 新范式 和 新思路。
ASID最核心的贡献,是验证了 “空间关系相对稳定” 这一假设在深度网络中的有效性。它将Transformer中代价最高的“关系学习”与“特征演化”过程解耦:在浅层一次性地计算出注意力矩阵(关系),在深层反复地复用该矩阵来聚合演变的特征(内容)。这种“注意力共享”机制,是对Transformer计算本质的一次精妙重构,为从根本上降低其复杂度提供了可行路径。
ASID并非单一技巧的胜利。它展示了如何将多种高效技术系统性地集成以实现共同目标:
- 信息蒸馏 负责在模块内进行渐进式特征筛选,实现自适应计算。
- 局部模块(LM) 引入了卷积的归纳偏置,为自注意力提供高质量的局部特征基础,弥补其短板。
- 多级窗口注意力 确保了模型能以可承受的代价捕获从局部到全局的依赖。
这些技术被统一在IDB这一创新模块下,共同支撑起了300K参数的惊人轻量化成果。
对学术研究:ASID启发了我们对网络组件“可复用性”的再思考。注意力、激活、乃至更宏观的模块,是否存在其他可共享的稳定成分?这为轻量化设计打开了新的想象空间。
对工业应用:ASID直接证明了实用级高性能超分在边缘设备上部署的可行性。其极小的模型体积和计算需求,让4K增强、移动端高清变焦、实时视频修复等应用变得触手可及。
总而言之,ASID像一位精巧的“架构师”,它没有一味追求更复杂的材料(参数),而是通过设计更智能的结构(注意力共享),用极简的钢材建造出了承重更强的建筑。它告诉我们,在追求模型能力的道路上,对信息的深刻理解与对计算的重新规划,有时比单纯扩大规模更为有效。

被折叠的 条评论
为什么被折叠?



