Cross Aggregation Transformer for Image Restoration

@山佳

已于 2023-03-19 17:16:50 修改

阅读量400

点赞数 3

文章标签： transformer 深度学习 python

于 2023-03-19 16:47:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44975490/article/details/129652221

版权

链接：[2211.13654] Cross Aggregation Transformer for Image Restoration (arxiv.org)

摘要

被引入到图像恢复中的Transformer替换掉了CNN,已经取得了很好的效果。考虑到带有全局注意力的Transformer有复杂的计算度，一些方法使用局部窗口去限制自注意力的范围，然而这些方法缺乏在不同窗口之间的直接交互，也限制了长距离的依懒性。针对这些问题，作者提出了一种新的图像恢复模型（CAT）。

一、创新点

1.提出了一个新的图像恢复Transformer模型CAT（交叉窗口Transformer），利用了窗口自注意力和聚合不同窗口的特征；

2.提出了一个新的自注意力机制，称为Rwim-SA。它使用了长方形的窗口进行自注意力的计算，也是用了axial-shift的移位操作；

3.提出的CAT也可以应用于经典的图像恢复任务:图像SR, JPEG压缩工件减少和真实图像去噪。

二、网络框架

CAT网络是由3 个部分构成的：浅层特征提取模块、深层特征提取模块、恢复模块。

浅层特征提取模块是由一个3*3的卷积构成。深层特征提取模块是由N1个RG（残差组）+ 一个3*3卷积构成，RG模块是由N2个CATB（cross aggregation Transformer block）+ 一个3*3卷积构成。

CATB的核心就是Rwin-SA，网络框架如下：

⑴ Rectangle-Window Self-Attention

首先将输入的x（这里x的类型是tensor）分成2 块，其中一块采用水平长方形的窗口划分，另一块采用垂直长方形的窗口划分，然后分别进行自注意力的计算。

文中的的窗口划分和以前的窗口划分（SwinIR、ELAN等）是不一样的。以前窗口划分是采用的方形的窗口，也就是 sh = sw ，sh是窗口的高，sw是窗口的宽。文中的窗口划分是采用了一个sh ≠ sw 的窗口进行划分。水平窗口划分是 sh ＜ sw ，垂直窗口划分是 sh ＞ sw 。

⑵ Axial-Shift Operation

为了得到更好的感受野，以便于可以从一个相同的区域中获取更多的信息。文中提出了一个新的shift操作，和以往的shift操作不同的是，以前的shift向下和向左移动的长度是相同的。文中的的shift向下长度是sh/2，shift向左长度是sw/2。

⑶Locality Complementary Module

左边是正常的多头自注意力中的V，就是说产生它的X是经过窗口分割的；然而右边的V的没有进行窗口分割之前的X产生的V，右边的V经过一个3*3dw卷积，然后和左边计算得到的attention相加输出。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。