一、本文介绍
注:全部代码见文末百度网盘链接
CVPR 2023中提出了一种名为Hybrid Attention Transformer (HAT)
的方法,旨在通过结合深度学习技术和注意力机制来改进图像超分辨率任务。该方法将通道注意力和基于窗口的自注意力机制相结合,充分利用它们在利用全局统计信息和强大的局部拟合能力方面的互补优势。此外,作者还引入了一个重叠的交叉注意力模块,用于增强相邻窗口特征之间的交互作用,以更好地聚合跨窗口信息。
文中通过 LAM 的分析,LAM 能够显示出哪些输入像素对于重建贡献最大,如下图
发现:通过HAT,在图像超分辨率任务中,能够激活更多像素进行重建,在图中几乎可以映射整个图像,并且能够恢复正确和清晰的纹理。这对我们们在处理小目标任务时,有所启发,相比于大目标检测,小目标之所以难以检测或者有较好的检测效果是因为,其输入特征少,有效利用到的输入