Cross Aggregation Transformer for Image Restoration

链接:[2211.13654] Cross Aggregation Transformer for Image Restoration (arxiv.org)


摘要

被引入到图像恢复中的Transformer替换掉了CNN,已经取得了很好的效果。考虑到带有全局注意力的Transformer有复杂的计算度,一些方法使用局部窗口去限制自注意力的范围,然而这些方法缺乏在不同窗口之间的直接交互,也限制了长距离的依懒性。针对这些问题,作者提出了一种新的图像恢复模型(CAT)。

一、创新点

        1.提出了一个新的图像恢复Transformer模型CAT(交叉窗口Transformer),利用了窗口自注意力和聚合不同窗口的特征;

        2.提出了一个新的自注意力机制,称为Rwim-SA。它使用了长方形的窗口进行自注意力的计算,也是用了axial-shift的移位操作;

        3.提出的CAT也可以应用于经典的图像恢复任务:图像SR, JPEG压缩工件减少和真实图像去噪。

二、网络框架

CAT网络是由3 个部分构成的:浅层特征提取模块、深层特征提取模块、恢复模块。

浅层特征提取模块是由一个3*3的卷积构成。深层特征提取模块是由N1个RG(残差组)+ 一个3*3卷积构成,RG模块是由N2个CATB(cross aggregation Transformer block)+ 一个3*3卷积构成。

CATB的核心就是Rwin-SA,网络框架如下:

  ⑴ Rectangle-Window Self-Attention

        首先将输入的x(这里x的类型是tensor)分成2 块,其中一块采用水平长方形的窗口划分,另一块采用垂直长方形的窗口划分,然后分别进行自注意力的计算。

        文中的的窗口划分和以前的窗口划分(SwinIR、ELAN等)是不一样的。以前窗口划分是采用的方形的窗口,也就是 sh = sw ,sh是窗口的高,sw是窗口的宽。文中的窗口划分是采用了一个sh ≠ sw 的窗口进行划分。水平窗口划分是 sh < sw ,垂直窗口划分是 sh > sw 。

 ⑵ Axial-Shift Operation

        为了得到更好的感受野,以便于可以从一个相同的区域中获取更多的信息。文中提出了一个新的shift操作,和以往的shift操作不同的是,以前的shift向下和向左移动的长度是相同的。文中的的shift向下长度是sh/2,shift向左长度是sw/2。

⑶Locality Complementary Module

 左边是正常的多头自注意力中的V,就是说产生它的X是经过窗口分割的;然而右边的V的没有进行窗口分割之前的X产生的V,右边的V经过一个3*3dw卷积,然后和左边计算得到的attention相加输出。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值