超分辨率：Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network论文翻译

原创

已于 2022-08-16 09:38:10 修改 · 2.7k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #深度学习

于 2022-08-15 00:35:59 首次发布

本文提出了用于图像超分辨率的 SRGAN，它是首个能为 4 倍放大因子推断照片般逼真自然图像的框架。通过提出由对抗性损失和内容损失组成的感知损失函数，使深度残差网络恢复逼真纹理。大量测试显示，SRGAN 在感知质量上有巨大进步。

尽管使用更快和更深的卷积神经网络在单幅图像超分辨率的准确性和速度方面取得了突破，但一个核心问题在很大程度上仍未解决：当我们在较大的放大倍数下进行超分辨率时，我们如何恢复更精细的纹理细节？基于优化的超分辨率方法的行为主要由目标函数的选择驱动。最近的工作主要集中在最小化均方重建误差上。得到的估计具有很高的峰值信噪比，但它们通常缺乏高频细节，并且在感知上不令人满意，因为它们无法匹配在更高分辨率下预期的保真度。在本文中，我们提出了 SRGAN，一种用于图像超分辨率 (SR) 的生成对抗网络 (GAN)。据我们所知，它是第一个能够为 4 倍放大因子推断照片般逼真的自然图像的框架。为了实现这一点，我们提出了一个感知损失函数，它由对抗性损失和内容损失组成。对抗性损失将我们的解决方案推向自然图像流形，使用经过训练的鉴别器网络来区分超分辨率图像和原始照片般逼真的图像。此外，我们使用由感知相似性而不是像素空间中的相似性驱动的内容损失。我们的深度残差网络能够从公共基准的大量下采样图像中恢复照片般逼真的纹理。广泛的平均意见分数 (MOS) 测试显示，使用 SRGAN 在感知质量方面取得了巨大的进步。使用 SRGAN 获得的 MOS 分数更接近于原始高分辨率图像的分数。

介绍：

从低分辨率 (LR) 对应物估计高分辨率 (HR) 图像的极具挑战性的任务称为超分辨率 (SR)。 SR 受到了计算机视觉研究界的广泛关注，并具有广泛的应用 [63,71,43]。欠定 SR 问题的不适定性质对于高放大因子尤为明显，因为重建的 SR 图像中的纹理细节通常不存在。有监督的 SR 算法的优化目标通常是最小化恢复的 HR 图像和地面实况之间的均方误差 (MSE)。最小化 MSE 也会最大化峰值信噪比 (PSNR)，这是用于评估和比较 SR 算法的常用度量 [61]。然而，MSE（和 PSNR）捕捉感知相关差异（例如高纹理细节）的能力非常有限，因为它们是基于像素级图像差异定义的 [60,58,26]。这在图 2 中进行了说明，其中最高 PSNR 不一定反映感知上更好的 SR 结果。超分辨率图像和原始图像之间的感知差异意味着恢复的图像不像 Ferwerda [16] 所定义的那样逼真。在这项工作中，我们提出了一个超分辨率生成对抗网络（SRGAN），我们为此使用了一个带有跳跃连接的深度残差网络（ResNet），并从 MSE 发散作为唯一的优化目标。与以前的工作不同，我们使用 VGG 网络 [49, 33, 5] 的高级特征图和鉴别器定义了一种新颖的感知损失，该鉴别器鼓励在感知上难以区分 HR 参考图像的解决方案。图 1 显示了一个使用 4 倍放大因子超分辨率的逼真图像示例。

在这里插入图片描述

1.1 相关工作：

1.1.1 图像超分辨率

最近关于图像 SR 的综述文章包括 Nasrollahi 和 Moeslund [43] 或 Yang 等人。 [61]。在这里，我们将专注于单幅图像超分辨率（SISR），并且不会进一步讨论从多幅图像中恢复 HR 图像的方法 [4, 15]。基于预测的方法是解决 SISR 的首批方法之一。虽然这些过滤方法，例如线性、双三次或 Lanczos [14] 过滤可以非常快，它们过度简化了 SISR 问题，通常会产生纹理过于平滑的解决方案。已经提出了特别关注边缘保留的方法 [1, 39]。更强大的方法旨在建立低分辨率和高分辨率图像信息之间的复杂映射，并且通常依赖于训练数据。许多基于示例对的方法依赖于已知对应 HR 对应物的 LR 训练补丁。 Freeman 等人提出了早期的工作。 [18, 17]。 SR 问题的相关方法起源于压缩感知[62,12,69]。在格拉斯纳等人。 [21] 作者利用图像内跨尺度的补丁冗余来驱动 SR。 Huang等人也采用了这种自相似性范式。 [31]，通过进一步允许小的变换和形状变化来扩展自字典。顾等人。 [25] 提出了一种卷积稀疏编码方法，通过处理整个图像而不是重叠补丁来提高一致性。为了在避免边缘伪影的同时重建逼真的纹理细节，Tai 等人。 [52] 将基于梯度轮廓先验 [50] 的边缘定向 SR 算法与基于学习的细节合成的优点相结合。张等人。 [70] 提出了一种多尺度字典来捕获不同尺度下相似图像块的冗余。为了超分辨率地标图像，Yue 等人。 [67] 从网络上检索具有相似内容的相关 HR 图像，并提出一种结构感知匹配标准进行对齐。邻域嵌入方法通过在低维流形中找到相似的 LR 训练补丁并组合它们相应的 HR 补丁进行重建来对 LR 图像补丁进行上采样 [54, 55]。在 Kim 和 Kwon [35] 中，作者强调了邻域方法过度拟合的趋势，并使用核岭回归制定了更一般的示例对映射。回归问题也可以用高斯过程回归[27]、树[46]或随机森林[47]来解决。在戴等人。 [6] 学习了大量特定于补丁的回归器，并在测试期间选择了最合适的回归器。最近，基于卷积神经网络 (CNN) 的 SR 算法表现出优异的性能。在王等人。 [59]作者基于学习的迭代收缩和阈值算法（LISTA）[23]将稀疏表示编码到他们的前馈网络架构中。董等人。 [9, 10] 使用双三次插值来放大输入图像，并端到端训练三层深度全卷积网络，以实现最先进的 SR 性能。随后，结果表明，使网络能够直接学习升级过滤器可以进一步提高准确性和速度方面的性能 [11,48,57]。凭借他们的深度递归卷积网络 (DRCN)，Kim 等人。 [34] 提出了一种高性能架构，该架构允许远程像素依赖，同时保持模型参数的数量很小。与我们的论文特别相关的是 Johnson 等人的作品。 [33] 和布鲁纳等人。 [5]，他们依靠更接近感知相似性的损失函数来恢复视觉上更有说服力的 HR 图像。

1.1.2 卷积神经网络的设计

随着 Krizhevsky 等人的工作取得成功，许多计算机视觉问题的最新技术同时由专门设计的 CNN 架构设置。 [37]。结果表明，更深层次的网络架构可能难以训练，但有可能大大提高网络的准确性，因为它们允许对非常复杂的映射进行建模 [49, 51]。为了有效地训练这些更深层次的网络架构，批量归一化 [32] 通常用于抵消内部协变量偏移。更深层次的网络架构也被证明可以提高 SISR 的性能，例如金等人。 [34] 制定递归 CNN 并呈现最先进的结果。另一个简化深度 CNN 训练的强大设计选择是最近引入的残差块 [29] 和跳跃连接 [30, 34] 的概念。跳跃连接减轻了对本质上微不足道的恒等映射建模的网络架构，然而，用卷积核表示可能并不简单。在 SISR 的背景下，还表明学习升级过滤器在准确性和速度方面是有益的 [11,48,57]。这是对 Dong 等人的改进。 [10] 在将图像馈送到 CNN 之前，采用双三次插值来放大 LR 观察。 1.1.3 损失函数像素级损失函数（如 MSE）难以处理恢复丢失的高频细节（如纹理）所固有的不确定性：最小化 MSE 鼓励找到合理解决方案的像素级平均值，这些解决方案通常过于平滑，因此具有感知质量差 [42, 33, 13, 5]。不同感知质量的重建在图 2 中以相应的 PSNR 为例。我们在图 3 中说明了最小化 MSE 的问题，其中具有高纹理细节的多个潜在解决方案被平均以创建平滑的重建。在马修等人。 [42] 和丹顿等人。 [7] 作者通过使用生成对抗网络 (GAN) [22] 来应用图像生成来解决这个问题。 Yu 和 Porikli [66] 使用鉴别器损失来增加像素级 MSE 损失，以训练一个网络，该网络可以超分辨率具有大放大因子 (8×) 的人脸图像。 GAN 也用于 Radford 等人的无监督表示学习。 [44]。 Li 和 Wand [38] 以及 Yeh 等人描述了使用 GAN 学习从一个流形到另一个流形的映射的想法。 [64] 用于修复。布鲁纳等人。 [5] 最小化 VGG19 [49] 和散射网络的特征空间中的平方误差。 Dosovitskiy 和 Brox [13] 使用基于在神经网络特征空间中计算的欧几里得距离的损失函数，并结合对抗性训练。结果表明，所提出的损失允许视觉上优越的图像生成，并可用于解决解码非线性特征表示的不适定逆问题。与这项工作类似，Johnson 等人。 [33] 和布鲁纳等人。 [5] 提出使用从预训练的 VGG 网络中提取的特征，而不是低级的逐像素误差测量。具体来说，作者根据从 VGG19 [49] 网络中提取的特征图之间的欧几里德距离制定了一个损失函数。对于超分辨率和艺术风格转移[19, 20]，获得了更令人信服的结果。最近，Li 和 Wand [38] 还研究了在像素或 VGG 特征空间中比较和混合补丁的效果。

1.2. 贡献

GAN 提供了一个强大的框架，用于生成具有高感知质量的看似合理的自然图像。 GAN 过程鼓励重建向搜索空间的区域移动，这些区域具有很高的包含照片般逼真的图像的可能性，因此更接近自然图像流形，如图 3 所示。在本文中，我们描述了第一个非常深的 ResNet [29， 30]架构使用GANs的概念来形成逼真的SISR的感知损失函数。我们的主要贡献是：

• 我们使用针对 MSE 优化的 16 块深度 ResNet (SRResNet)，通过 PSNR 和结构相似性 (SSIM) 测量了具有高放大因子 (4x) 的图像 SR 的最新技术。

• 我们提出SRGAN，它是一种基于GAN 的网络，针对新的感知损失进行了优化。在这里，我们将基于 MSE 的内容损失替换为在 VGG 网络 [49] 的特征图上计算的损失，这对像素空间的变化更加不变 [38]。

• 我们对来自三个公共基准数据集的图像进行了广泛的平均意见得分 (MOS) 测试，确认 SRGAN 在很大程度上是用于估计具有高放大系数的照片般逼真的 SR 图像的最新技术（4 ×)。我们在第 2 节中描述了网络架构和感知损失。第 3 节提供了对公共基准数据集的定量评估以及视觉插图。本文最后在第 4 节进行讨论，在第 5 节结束评论。