Multi-Stage Progressive Image Restoration 论文笔记

最新推荐文章于 2025-07-28 16:06:13 发布

Unsunshine_Bigboy_?

最新推荐文章于 2025-07-28 16:06:13 发布

阅读量234

点赞数

CC 4.0 BY-SA版权

文章标签：论文阅读

本文链接：https://blog.youkuaiyun.com/weixin_46872424/article/details/128524388

文章提出一种新的多阶段图像恢复网络，通过多个编码器-解码器子网络学习空间上下文信息，并在原始分辨率上保留位置信息。创新点包括多尺度特征融合、有监督注意力模块和跨阶段融合机制。实验展示了在网络在去雨、去模糊和降噪任务上的应用，但作者认为单阶段网络可能更具优势，且模型设计复杂。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

大部分图像降噪、去雨等网络模型都是单步的，也是直接参考目标检测、实例分割那边的网络结果直接演化过来的，然而，多步的网络结果也是存在的，它将图像恢复任务通过很多个编码器-解码器结构的网络模型分解成很多个小的子任务，从而更好地提取不同的空间特征和上下文信息，进行更好地特征融合。于是，该论文就是在这个基础上提出来的。多阶段优点的是相比于单阶段的编码器-解码器结构，由于存在下采样使得会丢失一部分的空间相关信息；但是如果不进行下采样的话，感受野就非常有限，使得不能完全关注某些全局的信息。所以对于是否进行下采样来说，这是一个矛盾的问题，在此基础上提出了多阶段的解决方法，早期阶段结合了编码器-解码器的优点，同时最后阶段基于原始分辨率，尽可能地少丢失了原图的信息。

主要创新点如下：①提出了一种新的多步图像恢复任务的网络结构，可以很好地理解上下文和空间的信息。

②提出了新的Attention的有监督学习的模块。

③提出了在不同步中的多尺度特征融合的方法。

网络结构

网络一共有三个阶段，第一、第二个阶段是基于编码器-解码器结构的子网络，目的是学习空间上下文的信息；由于图像恢复对位置信息非常敏感，第三个阶段在原始输入图像的分辨率上进行操作，保留位置信息和精细化的信息。在每两个阶段之间都会加入一个SAM有监督的注意力模块，并且提出了一种跨阶段的特征融合机制来融合多尺度的特征。

在第一个阶段将输入图像分成了四个patch进行输入，在第二个阶段分成了两个，在第三个阶段将整个原图作为一个输入。

损失函数

在损失函数中也分为三个阶段，每个阶段的损失函数分为两个部分，一部分是Charbonnier损失，是每个阶段的预测图和GT之间的平方差加上高斯噪声后开根号，另外一部分是边缘的损失，计算如下。

特征提取网络

特征提取网络的前两个是基于U-net编码器-解码器结构，首先，输入图像进来先进入一个卷积层后再进入CABs模块，如下图（b），由n个CAB模块组合成，然后进入U-net，Unet的编码器和解码器之间也是经过CAB模块连接的，最后是通过一个双线性采样和一个卷积层进行输出。

在最后阶段的ORSNet中，没有使用任何的下采样，包含了多个CAB模块组成。

特征融合机制

第一阶段和第二阶段的特征融合如上图(c)，第二三阶段融合如图(d)，这样设计的优势是没有因为上采样或者下采样而导致特征丢失。

Supervised Attention Module

将第一阶段得到的特征图经过1×1的卷积后通道数变为3，和原图相加得到该阶段恢复的图像，然后经过卷积层和sigmoid激活函数计算注意力特征图，再和特征图进行累加后输入到下一阶段。

实验

去雨

去模糊

降噪

消融实验

总结

总体来说提供了新的思路，网络不应该局限于单阶段，但是个人认为网络融合成单阶段是必然趋势，不管是从运行速度还是模型大小来说，单阶段的网络优势还是非常大。另外，就这篇论文来说，模型设计有点过于复杂了，虽然说避免下采样可以防止丢失信息，但是残差网络不就是为了解决这个问题的吗？不一定非得使用多阶段的方法，有点小题大做，当然这也只是我个人的想法，至少在这篇文章不足以证明多阶段有非常大的优势。但是作为一种新的思路来说也是不错的，另外整个模型设计没有特别有章法，没有给出具体说明，而且图不够清晰，个人认为有点欠缺。