文献阅读:To learn image super-resolution, use a GAN to learn how to do image degradation first

本文介绍了一种针对真实世界图像的超分辨重建方法,通过两阶段GAN网络,即High-to-LowGAN和Low-to-HighGAN,实现从低分辨率到高分辨率的图像提升。创新之处在于提出GAN-centered损失函数,以及使用FID作为评价指标。

文章地址:https://arxiv.org/abs/1807.11458
作者的项目地址:Pytorch: Face-and-Image-super-resolution

1. 介绍

    这是一篇图像和人脸的超分辨重建的文章,目前超分辨重建一个主要的问题是聚焦在真实世界图像的超分辨重建问题上。传统的SR的方法获取LR的手段是人工获取,比如通过双线性下采样或者是先通过一个模糊核然后在进行双线性下采样。但是真实世界的图像往往具有复杂的退化模型,比如运动、去焦、压缩、传感器噪声等复杂的情况。所以目前一些主流的SR方法可能在人造的LR图像上重建效果很好,但是在真实世界图像上表现不一定很好。关于真实世界图像重建CVPR2018中一篇文章也做了类似的工作,“Zero-Shot” Super-Resolution using Deep Internal Learning。可以参考我的博客深度学习应用到图像超分辨率重建2, 其中对这篇文章做了简单的介绍。

    本篇文章创新之处主要有2个。第1个就是提出一种2个阶段的处理,分别是High-to-Low GAN和Low-to-High GAN。在第一阶段,我们可以使用不同的未配对数据集,比如由Celeb-A、AFLW、LS3D-W和VGGFace2组成的高分辨率图像数据集,或者低分辨率图像数据集Widerface。第二阶段,用上一步的输出结果,用成对训练数据从低分辨率到高分辨率地训练GAN。相当于是第一个阶段我们学习到降级模型然后获取pair数据集,然后在第二个阶段进行SR。作者另外一个创新之处就是之前的文章将L2损失作为主要损失,而GAN损失作为辅导。而这里作者提出 GAN-centered ,也就是以GAN损失作为主导,pixel损失作为辅导。

2. 网络介绍

    主要的框架如图所示:
在这里插入图片描述

主要就是分为2个阶段: High-to-Low和Low-to-High

2.1 High-to-Low

    这个阶段主要完成的是HR图像降级的过程。首先我们输入的是HR图像和一个服从正态分布的随机噪声,然后将其concatenate起来,随后网络通过一个High-to-low网络,他是由普通的ResNets堆叠而成的,其中ResNets使用的pre-activation而且不使用BatchNorm。如下图所示:
在这里插入图片描述
    另一方面,我们还需要使用LR的dataset,这是真实世界的图像,然后利用GAN网络将这个LR和SR图像输入判别器进行判别,这个判别器就是普通使用的判别器。在前面也说过了,作者的损失包含两个方面一个gan损失还有一个就是pixel损失。但是这里是GAN-centered的,pixel损失只是加速网络的训练,保证人脸图像的一些细节。还有一个方面需要需要注意:就是这里输入的随机噪声,因为这是HR->LR的过程,所以也会存在很多解,因此随机噪声的存在可以帮助我们模拟很多种现实情况,具有多样性。如下图所示:
在这里插入图片描述

2.2 Low-to-High

    第一个阶段主要的作用就是:将两个不同的unpair数据集输入到High-to-Low网络,学习图像降级的过程,得到pair数据集输入给Low-to-High网络。
然后生成器网络如图所示,使用三个组。然后判别网络和上面的是一样的。
在这里插入图片描述

2.3 损失函数

   整个损失函数定义如下:

l = α l p i x e l + β l G A N l = \alpha l_{pixel} + \beta l_{GAN} l=αlpixel+βlGAN

    一般来说 α l p i x e l &lt; β l G A N \alpha l_{pixel} &lt; \beta l_{GAN} αlpixel<βlGAN , 这个就表示我们是GAN损失占主导。这里的pixel损失就会常规的MSE损失。而对于这里的GAN损失,作者发现WGAN-GPSN-GAN表现差不多。作者在本篇文章中选择了后者,也就SN-GAN。这是发表在ICLR2018上的一篇文章,个人感觉还是一篇很好的文章,下面贴一下链接大家可以自己看一下:

  1. Spectral Normalization for Generative Adversarial Networks
  2. 知乎:如何评价Ian Goodfellow由衷赞赏的训练稳定方法SN-GANs?

3. 实验

    在测试阶段,由于测试集合只有LR图像而没有HR图像,所以我们不能使用传统的PSNRSSIM作为评价指标,这里这里使用了Fréchet Inception Distance(FID),越小越好。这是发表在NIPS2017的文章,贴一下参考文章:

  1. GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium
  2. 六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步

4. 结果

定量上分析:
在这里插入图片描述

定性上分析:
在这里插入图片描述

5. 感想

个人觉得这是一篇很好的文章,不是简单的灌水。将注意力集中在真实世界图像的超分辨重建上。提出2个创新:

  1. 传统的都是使用人造的LR生成方式,而作者这里将重建分成2个阶段。第1个阶段就是学习这个降级的过程;第2个阶段使用pair数据重建。
  2. 提出GAN-centered的损失函数计算。
  3. 还有一个小小的亮点就是使用FID作为评价指标。
Image super-resolution (SR) is the process of increasing the resolution of a low-resolution (LR) image to a higher resolution (HR) version. This is an important task in computer vision and has many practical applications, such as improving the quality of images captured by low-resolution cameras or enhancing the resolution of medical images. However, most existing SR methods suffer from a loss of texture details and produce overly smooth HR images, which can result in unrealistic and unappealing results. To address this issue, a new SR method called Deep Spatial Feature Transform (DSFT) has been proposed. DSFT is a deep learning-based approach that uses a spatial feature transform layer to recover realistic texture in the HR image. The spatial feature transform layer takes the LR image and a set of HR feature maps as input and transforms the features to a higher dimensional space. This allows the model to better capture the high-frequency details in the image and produce more realistic HR images. The DSFT method also employs a multi-scale approach, where the LR image is processed at multiple scales to capture both local and global features. Additionally, the model uses residual connections to improve the training process and reduce the risk of overfitting. Experimental results show that DSFT outperforms state-of-the-art SR methods in terms of both quantitative metrics and visual quality. The method is also shown to be robust to different noise levels and image degradation scenarios. In summary, DSFT is a promising approach for realistic texture recovery in image super-resolution. Its ability to capture high-frequency details and produce visually appealing HR images makes it a valuable tool for various applications in computer vision.
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值