✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。
我是Srlua小谢,在这里我会分享我的知识和经验。🎥
希望在这里,我们能一起探索IT世界的奥妙,提升我们的技能。🔮
记得先点赞👍后阅读哦~ 👏👏
📘📚 所属专栏:传知代码论文复现
欢迎访问我的主页:Srlua小谢 获取更多信息和资源。✨✨🌙🌙
目录
Swin-Dense-Residual-Connected Block
本文所有资源均可在该地址处获取。
引言
单图像超分辨率(SISR)的任务是旨在从其低分辨率版本重建出高质量的图像。基于CNN的网络在性能方面取得了显著的成功。然而,CNN的归纳偏置限制了SISR模型捕获长距离依赖性的能力。它们的固有局限性源于参数依赖的感受野扩展和不同层中卷积算子的核大小,这可能会忽略图像中的非局部空间信息。
为了克服与基于CNN的网络相关的局限性,研究人员引入了基于Transformer的SISR网络,利用其建模长距离依赖性的能力,从而增强SISR性能。这种方法在各种基准测试中大大增强了超越传统基于CNN模型的能力。
论文认为,尽管基于SwinIR的网络架构通过移位窗口注意力机制显著扩大了感受野以解决CNN中的小感受野问题,但由于网络深度增加时空间信息的丢失,容易出现梯度瓶颈。这隐含地限制了模型的性能和潜力。为了解决由于网络层数增加导致的空间信息丢失问题,论文引入了Dense-residual-connected Transformer(DRCT),旨在通过提出的Swin-Dense-Residual-Connected Block(SDRCB)稳定前向传播过程并防止信息瓶颈。这种方法通过增强感受野,用更少的参数和简化的模型架构来提高性能。
该项目由国立成功大学先进计算机视觉实验室的Chih-Chung Hsu、Chia-Ming Lee和Yi-Shiuan Chou共同开发,并在CVPR NTIRE 2024会议上进行了口头报告。
信息瓶颈原理
在信息瓶颈原理中,数据 XX 被视为原始输入,而信息 YY 是网络试图预测的输出。例如,在SISR任务中,XX 可以是低分辨率(LR)图像,而 YY 是高分辨率(HR)图像。
当数据通过神经网络的连续层级时,可能会发生信息损失。这是因为每一层都在尝试从输入中提取对预测输出有用的信息,同时忽略那些对预测不太重要的信息。这种信息的压缩可以用以下不等式表示:
I(X,X)≥I(Y,X)≥I(Y,fθ(X))≥I(X,gϕ(fθ(X)))I(X,X)≥I(Y,X)≥I(Y,fθ(X))≥I(X,gϕ(fθ(X)))
其中 II 表示互信息,ff 和 gg 是转换函数,θθ 和 ϕϕ 是 ff 和 gg 的参数。fθ(⋅)fθ(⋅) 和 gϕ(⋅)gϕ(⋅) 分别代表神经网络中的两个连续层。
在深度神经网络中,随着网络层数的增加,信息流可能会减少,导致梯度消失问题。这会影响网络参数的优化和预测性能。信息瓶颈原理强调,在深度学习中,模型需要在保留对任务有用的信息和减少输入数据中的冗余信息之间找到平衡。这种平衡可以帮助模型避免过拟合,并提高泛化能力。
在使用基于Transformer的SISR模型对不同数据集进行推理时,论文观察到一个共同现象,如上图,特征图可视化从上到下展示了SwinIR、HAT以及DRCT,其中位置越靠右代表网络中越深的层。对于SwinIR和HAT,特征图的强度在较浅的层中很明显,但随着网络深度的增加而减弱。论文认为这种现象意味着空间信息的丢失,导致SISR任务中的局限性和信息瓶颈。而DRCT学习到的特征图逐渐且稳定地增强,没有明显的波动。这代表了前向传播过程中信息流的稳定性,从而在最后一层的输出中产生更高的强度。
随着网络深度的增加,特征图的强度分布发生了更显著的变化。这表明了模型学习到的空间信息和注意力强度。然而,通常在网络末端急剧下降至更小的范围。这种现象表明,这种急剧变化可能伴随着空间信息的丢失,表明存在信息瓶颈。
DRCT模型
网络架构概览
DRCT模型由三个主要部分组成:浅层特征提取、深层特征提取和图像重建模块。这些部分共同工作,以实现从低分辨率(LR)图像到高分辨率(HR)图像的高质量重建。



最低0.47元/天 解锁文章
1346

被折叠的 条评论
为什么被折叠?



