论文:A review on Single Image Super Resolution techniques using generative adversarial network
单图像超分辨率(SISR)是一种从低分辨率(LR)图像中获得高像素密度和精细细节,以获得升级和更清晰的高分辨率(HR)图像的过程。在过去的十年中,基于卷积神经网络(CNN)的SISR在生成×3大小的超分辨率图像方面取得了令人印象深刻的成果。该技术的重点是最小化真实HR图像和生成HR图像之间的𝐿1∕𝐿2损失,而不考虑图像的感知质量。为了改进,基于生成对抗网络(GAN)的SISR以合理地减少×4尺寸图像的𝐿1∕𝐿2损失来生成视觉上令人愉悦的图像,引起了研究人员的注意。GAN的基本思想是同时训练两个网络,一个生成器和一个判别器,这样生成器可以通过学习真实的HR图像分布来生成给定输入LR图像的超分辨图像。本文概述了基于GAN的SISR技术的进一步研究,因为在该领域有一些调查。不同的GAN模型在架构、算法和损失函数方面进行了分类,包括它们的优点和局限性。最后,讨论了研究的空白以及现有方法的可能解决方案。
Introduction
一、抛出问题后,提出三个GAN对于CNN的优点,论证研究界更倾向于采用GAN方法在SISR领域取得更好的性能。
1.以卷积神经网络(CNN)为主的基于深度学习的方法取得了巨大成功,但由于可以从同一LR图像中估计出多个HR图像,因此SISR仍然是一个具有挑战性的病态问题(不适定性问题)。
2.CNN网络的性能在生成大于x3大小的图像时会下降,而在基于GAN网络的SISR技术中引入对抗性损失已经实现了可信的感知质量,即使对于生成x4大小的输出HR图像也是如此。
3.可以利用基于GAN的SISR技术对自然图像的高维多模态分布进行了建模,并获得满意的感知质量。
4.基于GAN的SISR算法在很大程度上实现了LR图像的真实退化去除,包括各向同性和各向异性高斯核,而基于CNN的网络只能去除各向同性高斯核。
二、简要介绍了GAN网络
生成对抗网络(Generative Adversarial Network, GAN)[13]是一种基于深度神经网络的无监督生成算法,它将对抗损失与感知损失结合在一起,产生接近自然图像流形的超分辨输出。GAN由两个无监督神经网络组成,即生成器和鉴别器,两个网络通过极大极小优化相互竞争,目标是达到一个均衡状态,称为纳什均衡,最终导致两个网络都加强,从而产生逼真的HR图像。GAN网络的性能在很大程度上取决于超参数,包括网络的设计、训练目标的选择、正则化和训练算法。
SISR framework and fundamentals of GAN
SISR framework
SISR可以分为传统方法和基于学习的方法。传统的方法包括基于插值的超分辨率和基于重建的超分辨率。
基于插值的方法通过使用插值核或基函数来估计高分辨率网格中的未知像素。基于重建的方法采用基于模型的方法,包括统计计算和不同类型的先验来构建HR图像。这些技术不能产生高光谱信息,并且随着输出图像比例因子的增加,性能也不理想。
基于学习的方法成功地生成了高频细节和令人信服的HR图像,在SISR领域取得了长足的进步。基于学习的方法的动机是确定要生成的图像的底层结构,并估计LR图像与相应的HR图像之间的关系。一些值得注意的基于学习的方法包括邻域嵌入方法、稀疏编码方法、随机森林方法、回归方法等。
GAN
GAN是最新的无监督生成建模技术之一,与以前的模型相比具有以下优点:
(i) GAN使用潜在代码,并且可以并行生成样本,这比完全可见信念网络(Fully Visible Belief Networks)有优势。
(ii) GAN是渐近一致的,这是优于变分自编码器(Variational Autoencoder,VAE)的一个优点。
(iii) GAN不需要在高维空间中表现不佳的马尔可夫链,这是优于玻尔兹曼机的优势。
(iv)尽管像PixelCNN这样的模型也产生了类似的结果,但大都认为GAN产生了最好的样本。
(v) GAN不需要任何近似,可以通过可微网络端到端进行训练,而其他生成模型由于近似方法而面临难以处理的函数问题。

GAN的基本框图
尽管GAN已经取得了显著的成果,但仍存在一些具有挑战性的问题,如:
1.模式崩溃和模式下降:在模式崩溃中,生成器被困到某个局部最小值,它只捕获分布的一小部分。当发生器产生几乎没有变化的均匀样品时,就会发生模态坍缩。在模式丢弃中,生成器没有忠实地对目标分布建模,并且丢失了目标分布的某些部分。Wasserstein GAN (W-GAN)和unrolled GAN解决了这些问题。知识蒸馏(Knowledge Distillation, KD)方案也通过在训练阶段改善生成器和鉴别器的平衡来帮助减少这一问题。
2. 梯度消失:梯度消失阻止生成器学习任何东西,因为鉴别器变得太成功了。Qi[1]也提出了梯度不消失的Loss-Sensitive GAN。在[2]中,提出了对极大极小损失的修正来缓解消失梯度。
3.收敛/不稳定训练:GAN网络在训练过程中可能无法收敛。Salimans等[3]提出了一种称为特征匹配的技术来获得更好的收敛性。其思想是通过最小化鉴别器中间层上的均方误差,使生成的样本与真实数据的统计量相匹配。在[4]中,通过在鉴别器输入中加入噪声给出了一个解决方案。在[5,6]中使用正则化进一步讨论了这个问题。为了在GAN模型中实现更快、更稳定的训练和更好的泛化精度,提出了不同的归一化技术,如梯度惩罚(WGAN-GP)、谱归一化、批归一化等。虽然这些技术改善了不稳定训练,但也导致了性能下降[\]。为了缓解这一问题,梯度归一化[7]被建议通过增加鉴别器对鉴别器函数施加梯度范数约束的能力来解决训练不稳定性。最近,自适应偏差调制器[\]与归一化相结合,放大像素值的标准差,使边缘信息无法区分,从而大大提高了性能。
Classification
基于GAN的SISR技术根据操作域、输出HR图像数量和网络运行时间等不同因素进行分类。图4显示了现有的基于GAN的SISR技术的上层分类。

图4 基于GAN的SISR分类
根据操作域的不同,可以将不同的技术分为频域和空间域。第一类网络包括退化建模和频域重构。在[9]中,使用二维离散余弦变换(DCT)技术在频域实现HR图像的退化。Fritsche等[10]提出分别使用简单的线性低通和高通滤波器分离和处理低频和高频细节。低频成分,如颜色和内容,通过逐像素的颜色损失来保留。高频分量的学习使用对抗损失来匹配原始图像。此外,我们还尝试了一种频率能量相似度损失函数[11],得到了更好的结果,使图像的边缘更清晰、更细致、更自然。频域网络收敛更快,更稳定,并具有实时应用。但是这些网络存在一些局限性,如退化建模不灵活、数学公式复杂等,限制了它们的应用。因此,研究人员对空间域技术更感兴趣。
在空间域中,通过修改像元值在像平面上进行退化建模、退化估计和重建过程。根据生成的图像数量,基于GAN的SISR技术可以分为一对多SR和一对一SR。
一对多SR方法,即从单个LR图像生成各种可信的HR图像,是由Bahat和Michaeli[12]提出的。该方法利用图形用户界面(GUI)和神经网络后端,通过操纵现有SR网络的输入控制信号来探索HR空间。虽然它减少了重建误差,在图形、医学、监控等应用中很有用,但它需要手动操作纹理的方差和周期性来生成不同的HR图像。在[13]中,利用训练过程中高分辨率图像中可用的语义图结构信息,以无监督的方式在图像梯度流形上生成各种HR图像。在[14]中考虑的网络输入LR图像和噪声向量,利用图像的高频信息生成可信的HR图像。各种生成的HR图像通过施加一个约束,即下采样后的HR图像与原始输入的LR图像之间的像素差不能超过一个超参数的值。Park和Lee[15]建议在生成器网络的每个残差稠密块(RRDB)层之后添加按比例的逐像素噪声,从随机分布映射输出分布,生成多幅逼真的超分辨图像。每个通道自适应地学习噪声的大小,因为噪声与通道相关的缩放因子相乘,然后添加到每个RRDB层的输出中。受StyleGAN[16]的启发,由于重构图像的随机变化,在每一层输出中加入自适应高斯噪声,会产生不同的超分辨图像。PULSE[17]中引入了一种无监督方法,将生成模型的潜在空间遍历到真实的多个HR图像中。一对多SR网络是新颖的,它们中的大多数只能处理双三次下采样图像,可能不能很好地处理其他类型的退化,而且很耗时。
一对一SR方法,即从单个LR图像生成单个HR图像,由于其易于实现,耗时少,复杂性低等优点而受到广泛研究。根据运行时间的不同,一对一的SR方法可以进一步分为实时SR和标准SR。从当今世界的场景和深度网络的发展来看,需要实时和高端的计算解决方案来执行复杂的网络计算。考虑到这些需求,Krishnan和Krishnan提出了具有实时推理和低内存占用的SwiftSRGAN[18]。它在机器人、移动应用、医疗成像、云游戏、流媒体等许多领域都有
基于GAN的单图像超分辨率技术综述

单图像超分辨率(SISR)可从低分辨率图像获得高分辨率图像。基于卷积神经网络(CNN)的SISR有局限,基于生成对抗网络(GAN)的SISR能生成视觉上更优的图像。本文概述基于GAN的SISR技术,对不同GAN模型分类,讨论其优缺点、研究空白及解决方案。

最低0.47元/天 解锁文章
1万+





