【Paper Thought】CVPR2025 超分论文心得分享：Attention-Sharing Information Distillation-优快云博客

继续新一周的超分论文学习

在视觉Transformer领域，一个公认的悖论是：性能与效率难以兼得。堆叠更多的自注意力层可以提升模型能力，但随之而来的平方级计算增长却让人望而却步。现有的轻量化工作多在窗口注意力、稀疏化上做文章，直至AAAI 2025的ASID论文提出一个根本性的设问：我们真的需要在每一层都重新计算注意力吗？基于对图像空间关系相对稳定性的深刻洞察，ASID给出了颠覆性的“否定”答案，并由此设计出通过“共享注意力”来实现极致压缩的IDB模块。这项研究不仅提供了一个高性能模型，更可能为我们设计下一代高效Transformer开辟一条新路径。

本周论文: Efficient Attention-Sharing Information Distillation Transformer for Lightweight Single Image Super-Resolution
来源: AAAI 2025
链接: https://arxiv.org/pdf/2501.15774
代码: https://github.com/saturnian77/ASID

文章贡献

根据文章内容，作者认为本文的贡献如下：

提出新型的轻量型SR模型，结合了信息蒸馏设计机制和transformer框架
提出具有注意力共享的特征蒸馏框架，缓解自注意力层的计算效率瓶颈

本网络的核心就是 IDB，IDB的核心其实就是注意力共享。从局部和全局两个层面，进行注意力共享，同时在一个IDB中进行蒸馏分层，进一步提取重要特征信息。其他操作均为传统transformer计算。

方法论

本网络总体设计如下图（截自论文）：
网络总体架构
总体结构如下：

浅层特征提取：3*3 卷积 H_s 对输入的低分辨率图像 I_LR 提取浅层特征 F₀ ： $F_0 = H_s(I_{LR})$ ，从RGB映射到多channel
深层特征提取 - 信息蒸馏块（Information Distillation Blocks， IDB）：
经过多个IDB 和一个 33的 conv H_d 提取深层特征 F_d ，具体公式如下：
$F1,A=HIDB1(F0)Fi=HIDBi(Fi−1,A),i=2,...,NFd=Hd(FN)\begin{aligned} & F_1,A = H_{IDB_1}(F_0) \\ & F_i = H_{IDB_i}(F_{i-1}, A), i=2,...,N \\ & F_d = H_d(F_N) \end{aligned}$
其中， $H_{IDB_i}$ 表示第 i 个IDB，A为注意力矩阵，N为IDB数量。
核心IDB部分的详细结构如下图：

此图中，第一行为第一个 IDB，第二行为第二个及后续的IDB。第一个IDB块在计算过程中通过SAM生成注意力矩阵，传递给后续的IDB进行使用。每个IDB中经过三层分级获取不同层级的特征并进行拼接后输出。
第一个IDB可用公式表示为： $F1,A1=SAM1(LM1(Fin))F1refined,F1coarse=Split(F1)F2,A2=SAM2(LM2(F1coarse))F2refined,F2coarse=Split(F2)F3,A3=SAM3(LM3(F2coarse))\begin{aligned} & F_1,A_1 = SAM_1(LM_1(F_{in})) \\ & F_1^{refined}, F_1^{coarse} = Split(F_1) \\ & F_2, A_2 = SAM_2(LM_2(F_1^{coarse})) \\ & F_2^{refined}, F_2^{coarse} = Split(F_2) \\ & F_3, A_3 = SAM_3(LM_3(F_2^{coarse})) \end{aligned}$
Split即为蒸馏操作，划分出精炼特征(Refined) 和粗糙特征(Coarse)。精炼特征被认为是该单元提取出的最重要信息，被暂时保存。粗糙特征则传递给下一个单元继续处理。
后续的IDB使用上一个IDB所传递下来的A，可用公式表示： $F1refined,F1coarse=Split(SAM1(LM1(F),A1))F2refined,F2coarse=Split(SAM2(LM2(F1coarse),A2))F3=SAM3(LM3(F2coarse,A3))\begin{aligned} & F_1^{refined}, F_1^{coarse} = Split(SAM_1(LM_1(F),A_1)) \\ & F_2^{refined}, F_2^{coarse} = Split(SAM_2(LM_2(F_1^{coarse}),A_2)) \\& F_3 = SAM_3(LM_3(F_2^{coarse},A_3)) \end{aligned}$
每个IDB后续的拼接和卷积操作表示为： $Frefined=Conv1×1(Concat(F1refined,F2refined,F3))Fout=ESA(CAM(Frefined)+F)\begin{aligned} & F^{refined} = Conv_{1 \times 1}(Concat(F_1^{refined}, F_2^{refined}, F_3)) \\ & F_{out} = ESA(CAM(F^{refined}) + F) \end{aligned}$
其中，PW-CONV为 pixel-wise convolution，11 卷积，CAM为 Channel Attention Module，SAM为Spatial Attention Module，ESA为enhanced spatial-attention operation。
- Local Module（LM）
  LM在SAM之前，所以SAM可以使用局部信息来计算空间关联性矩阵。LM包括两个 pixel-wise convolution，一个 deep-wise convolution，一个 squeeze-and-excitation
- SAM和CAM
  均是通过一个非重叠窗口来计算自注意力，这两个模块的操作都经过了两个阶段，即局部窗口和全局窗口（meso-level and global-level）
  首先，将输入特征 f 划分为中观和全局两种窗口模式。
  - 对于局部窗口，按划分尺寸 P 划分为多个窗口，每个窗口内进行注意力计算
  - 对于全局窗口，按划分尺寸 G 划分为多个窗口，针对每个窗口中的相同 channel的信息，进行注意力计算
  然后进行常规的 transformer计算操作
- 注意力分享和通道划分
  从第二个IDB开始，不需要再去计算每一个层的注意力矩阵，直接使用上一个IDB传递下来的即可，降低了计算量。通道划分限制了通道数量，减少了计算负荷和参数量。二者结合总体降低了计算复杂度和总体参数量。
  通道划分即为IDB中的split操作。
  内部模块详细的结构如下图：
图像重建上采样 H_up
$I_{SR} = H_{up}(F_0 + F_d)$
通过像素混洗（pixel-shuffle layer）将通道转回RGB以输出HR图像

总结

ASID网络的成功，远不止于在benchmark上刷出了几个新的SOTA分数。它的真正价值在于，为我们提供了一种突破“性能-效率”权衡的新范式和新思路。

ASID最核心的贡献，是验证了 “空间关系相对稳定” 这一假设在深度网络中的有效性。它将Transformer中代价最高的“关系学习”与“特征演化”过程解耦：在浅层一次性地计算出注意力矩阵（关系），在深层反复地复用该矩阵来聚合演变的特征（内容）。这种“注意力共享”机制，是对Transformer计算本质的一次精妙重构，为从根本上降低其复杂度提供了可行路径。

ASID并非单一技巧的胜利。它展示了如何将多种高效技术系统性地集成以实现共同目标：