论文阅读笔记：SRGAN_srgan原文翻译知乎-优快云博客

本文探讨了超分辨率重建（SISR）问题，指出传统的深度学习方法虽然在PSNR和SSIM等指标上表现良好，但在视觉效果上往往不足。作者提出了一种名为SRGAN的基于生成对抗网络（GAN）的解决方案，该方案用VGG网络特征匹配的损失函数替代了MSE损失。SRGAN在主观评价MOS测试中表现出色，尽管在像素级指标上有所下降。网络结构包括ParametricReLU激活函数，并且训练策略包括了生成器和判别器的特定更新规则。实验结果显示，SRGAN在人眼感知上优于其他方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
连接：https://arxiv.org/pdf/1609.04802.pdf
代码：
1.https://github.com/brade31919/SRGAN-tensorflow
2.https://link.zhihu.com/target=https%3A//github.com/OUCMachineLearning/OUCML/blob/master/GAN/srgan_celebA/srgan.py
背景：本文针对的是SISR问题。主要需要强调的是，超分算法的评估指标多为SSIM，PSNR，传统深度残差网络训练好后，结果指标通常很好，但细节纹理上与人眼感觉上通常效果欠佳，如下图，而生成类网络可以较好的解决这类问题{不过同样，也带来了像素级评价指标下降的问题，因此文章中使用了一种新指标}。

作者认为MSE损失函数类网络会让超分这一多解问题最后算出一个解空间的平均，而生成类网络则更倾向于一个特解，更plausible-looking。
文章主要贡献：
1.针对MSE损失函数，训练了具有16块的deepResNet网络，超分倍数为（4×），以PSNR，SSIM为评估指标，获得了当前算法中最好的结果。
2.提出基于GAN网络的SRGAN网络。同时把MSE loss替换为了一种基于VGG网络特征图上计算的loss。
3.对来自三个公共基准数据集的图像进行了广泛的平均意见评分（MOS）测试，确认SRGAN结果在人眼感知上的优越性。
网络结构：

这个结构中不太熟悉的主要是损失函数ParametricReLU，其与LeakRelu的区别如下图，主要是将负数部分的直线斜率设为可训练的参数而不是提前预设的常数。

另外网络的具体设计灵感来源看起来有挺多GAN的论文可看，有时间补充。
网络生成器更新规则为：

网络判别器训练准则为：

另外低分辨率数据是下采样制造的。
Loss函数设计
本文的Loss函数（ $l^{SR}$ ）也是诸多分量的组合，分为Adversarial loss与Content loss两部分：

1.Content loss
常用的内容损失函数的具体表示如下：

此类函数能获得较高的PSNR指标，但是高频纹理信息通常相对平滑。在本文中优化为了如下形式：

可见主要变动就是增加了一步网络处理 $ϕi,j\phi_{i,j}$ 。首先预训练出一个VGG19网络，将待比较的 $IHR,GθG(ILR)I^{HR},G_{\theta G}(I^{LR})$ 输入网络提取特征，之后对特征的距离进行最小化优化。其中 $i, j$ 指的是第j层卷积后第i层最大池化前的特征图，看一眼VGG网络的结构图就知道大概是什么意思啦。

2.Adversarial loss
形式如下，简而言之，真作假来假作真。
对比实验结果：

可见MOS结果较好，其它指标GAN网络其实还是跌了的。MOS是通过26个参试者五级评分制获得的。前一个指标好的是作者卸掉了判别网络和Loss函数中的对抗分量的训练结果。这种结果应当与损失函数有关，作者对损失函数也进行了测试，结果如下：

感觉只列两个数据集的结果相对有点少，深层VGG效果和浅层VGG效果不太好比较。

参考

【1】https://blog.youkuaiyun.com/qq_24477135/article/details/86492454
【2】https://blog.youkuaiyun.com/weixin_42113955/article/details/89001989
【3】https://blog.youkuaiyun.com/fuxuyun/article/details/104960486