2017-Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network(SRGAN/SRResNet)
基本信息
作者: Christian Ledig, Lucas Theis, Ferenc Husz´ar, Jose Caballero, Andrew Cunningham,
Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi
Twitter
期刊: CVPR
引用: *
摘要: 尽管使用更快、更深的卷积神经网络在单幅图像的超分辨率方面取得了突破性的进展,但有一个核心问题在很大程度上仍未得到解决:当我们在大比例尺下进行超分辨率时,如何恢复更精细的纹理细节?基于优化的超级分辨率方法的行为主要是由目标函数的选择所驱动。最近的工作主要集中在最小化平均平方重建误差上。由此产生的估计值具有较高的峰值信噪比,但它们往往缺乏高频细节,并且在感知上不令人满意,因为它们无法与更高的分辨率下的预期保真度相匹配。在本文中,我们提出了SRGAN,一个用于图像超分辨率(SR)的生成对抗网络(GAN)。据我们所知,它是第一个能够推断出4个放大系数的照片般真实的自然图像的框架。为了实现这一目标,我们提出了一个由对抗性损失和内容损失组成的知觉损失函数。对抗性损失将我们的解决方案推向自然图像流形,使用一个判别器网络,该网络被训练来区分超分辨率图像和原始照片写实图像。此外,我们还使用了一个以感知相似性为动机的内容损失,而不是像素空间的相似性。我们的深度残差网络能够在公共基准上从严重降采样的图像中恢复照片般真实的纹理。一个广泛的平均意见分数(MOS)测试显示,使用SRGAN在感知质量上有巨大的提升。用SRGAN得到的MOS分数比用任何最先进的方法得到的分数都更接近原始的高分辨率图像的分数。
1.简介
- 现阶段SR的问题:
SR的不是适定性导致SR图像缺乏纹理细节,有监督的SR算法的优化目标通常是最小化恢复的HR图像和地面真实之间的平均平方误差(MSE)。这很方便,因为最小化MSE也能使峰值信噪比(PSNR)最大化,而峰值信噪比是用来评估和比较SR算法的一个常用指标。然而,MSE(和PSNR)捕捉感知上相关差异的能力是非常有限的,比如高纹理细节,因为它们是基于像素级的图像差异来定义的。最高的PSNR并不一定反映出感知上更好的SR结果。 - 本文的工作:
提出了一个超级分辨率生成式对抗网络(SRGAN),为此我们采用了一个具有跳过连接的深度残差网络(ResNet),并将MSE作为唯一的优化目标。与以前的工作不同,我们使用VGG网络的高级特征图结合一个判别器来定义一个新的感知损失,鼓励从感知上难以与HR参考图像区分的解决方案。
1.1.相关工作
- 超分辨重建:介绍了SISR从传统算法到深度学习算法的发展历程及代表性作品
- 卷积神经网络的设计:越深的网络效果可能越好,但是训练比较困难,对此BN可以帮助有效训练更深的网络。残差块和跳连接也促进了超分辨的发展。此外上采样策略也是一个比较重要的网络设计方向。
- 损失函数:MSE 等像素损失难以处理恢复丢失的高频细节(如纹理)所固有的不确定性:最小化MSE鼓励寻找可信的解决方案的像素平均数,这些解决方案通常过于光滑,因此具有较差的感知质量。GAN网络、VGG特征损失等技术被提出用于解决该问题。
1.2.本文贡献
- 用16块深度ResNet(SRResNet)对MSE进行了优化,以PSNR和结构相似性(SSIM)衡量,起到了很好的结果
- 提出SRGAN,用感知损失而优化。用VGG网络的特征图计算的损失取代了基于MSE的内容损失,它对像素空间的变化更不敏感
- 通过对三个公共基准数据集的图像进行广泛的平均意见得分(MOS)测试,确认SRGAN在估计具有高放大系数(4)的照片般逼真的SR图像方面,以很大的优势成为最新的技术水平。
2.本文提出的方法
2.1.对抗网络框架
大致思路:允许人们训练一个生成模型G,目的是骗过一个可区分的鉴别器D,该鉴别器被训练用来区分超解图像和真实图像。通过这种方法,我们的生成器可以学习创造出与真实图像高度相似的解决方案,从而难以被D分类。这就鼓励了居住在自然图像的子空间,即流形中的感知上的优越解决方案。这与通过最小化像素误差测量(如MSE)获得的SR解决方案形成鲜明对比
minθGmaxθDEIHR∼ptrain (IHR)[logDθD(IHR)]+EILR∼pG(ILR)[log(1−DθD(GθG(ILR))] \begin{aligned} \min _{\theta_G} \max _{\theta_D} & \mathbb{E}_{I^{H R} \sim p_{\text {train }}\left(I^{H R}\right)}\left[\log D_{\theta_D}\left(I^{H R}\right)\right]+ \mathbb{E}_{I^{L R} \sim p_G\left(I^{L R}\right)}\left[\log \left(1-D_{\theta_D}\left(G_{\theta_G}\left(I^{L R}\right)\right)\right]\right. \end{aligned}θGminθDmaxEIHR∼ptrain (IHR)[logDθD(I

本文介绍了SRGAN和SRResNet在图像超分辨率领域的应用,指出传统基于MSE的优化方法可能导致恢复的图像缺乏纹理细节。SRGAN通过引入生成对抗网络和感知损失函数,尤其是VGG网络的高层特征,实现了更接近照片真实感的超分辨率图像。实验表明,SRGAN在感知质量上显著优于其他先进方法,尤其是在4倍放大时。尽管SRResNet在PSNR上有优秀表现,但在视觉效果上不及SRGAN。
最低0.47元/天 解锁文章
272

被折叠的 条评论
为什么被折叠?



