链接:[2211.13654] Cross Aggregation Transformer for Image Restoration (arxiv.org)
摘要
被引入到图像恢复中的Transformer替换掉了CNN,已经取得了很好的效果。考虑到带有全局注意力的Transformer有复杂的计算度,一些方法使用局部窗口去限制自注意力的范围,然而这些方法缺乏在不同窗口之间的直接交互,也限制了长距离的依懒性。针对这些问题,作者提出了一种新的图像恢复模型(CAT)。
一、创新点
1.提出了一个新的图像恢复Transformer模型CAT(交叉窗口Transformer),利用了窗口自注意力和聚合不同窗口的特征;
2.提出了一个新的自注意力机制,称为Rwim-SA。它使用了长方形的窗口进行自注意力的计算,也是用了axial-shift的移位操作;
3.提出的CAT也可以应用于经典的图像恢复任务:图像SR, JPEG压缩工件减少和真实图像去噪。
二、网络框架
CAT网络是由3 个部分构成的:浅层特征提取模块、深层特征提取模块、恢复模块。
浅层特征提取模块是由一个3*3的卷积构成。深层特征提取模块是由N1个RG(残差组)+ 一个3*3卷积构成,RG模块是由N2个CATB(cross aggregation Transformer block)+ 一个3*3卷积构成。
CATB的核心就是Rwin-SA,网络框架如下:
⑴ Rectangle-Window Self-Attention
首先将输入的x(这里x的类型是tensor)分成2 块,其中一块采用水平长方形的窗口划分,另一块采用垂直长方形的窗口划分,然后分别进行自注意力的计算。
文中的的窗口划分和以前的窗口划分(SwinIR、ELAN等)是不一样的。以前窗口划分是采用的方形的窗口,也就是 sh = sw ,sh是窗口的高,sw是窗口的宽。文中的窗口划分是采用了一个sh ≠ sw 的窗口进行划分。水平窗口划分是 sh < sw ,垂直窗口划分是 sh > sw 。
⑵ Axial-Shift Operation
为了得到更好的感受野,以便于可以从一个相同的区域中获取更多的信息。文中提出了一个新的shift操作,和以往的shift操作不同的是,以前的shift向下和向左移动的长度是相同的。文中的的shift向下长度是sh/2,shift向左长度是sw/2。
⑶Locality Complementary Module
左边是正常的多头自注意力中的V,就是说产生它的X是经过窗口分割的;然而右边的V的没有进行窗口分割之前的X产生的V,右边的V经过一个3*3dw卷积,然后和左边计算得到的attention相加输出。