[论文笔记]ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks

[论文笔记]ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks

解析1 解析2

代码

本篇论文是基于SRGAN改进而来到,相比于SRGAN它在三个方面进行了改进:

1.网络的基本单元从基本的残差单元变为Residual-in-Residual Dense Block (RRDB);

2.GAN网络改进为Relativistic average GAN (RaGAN);

3.改进感知域损失函数,使用激活前的VGG特征,这个改进会提供更尖锐的边缘和更符合视觉的结果。

[外链图片转存失败(img-JZ2SjXUj-1565667100950)(assets/1564493155387.png)]

1. Network Architecture

1.1generator G

  • 将所有的BN layer去除(fig4 左1,左2)
  • 将原SRGAN中的resnet网络改为RRDB(fig4 右)
  • 对残差信息进行scaling,即将残差信息乘以一个0到1之间的数,用于防止不稳定(fig4 右中的β)
  • 更小的初始化,作者发现当初始化参数的方差变小时,残差结构更容易进行训练

[外链图片转存失败(img-OrrEe3Wl-1565667100952)(assets/1564489632425.png)]

BN层在训练时,使用一个batch的数据的均值和方差对该batch特征进行归一化,在测试时,使用在整个测试集上的数据预测的均值和方差。当训练集和测试集的统计量有很大不同的时候,BN层就会倾向于生成不好的伪影,并且限制模型的泛化能力。作者发现,BN层在网络比较深,而且在GAN框架下进行训练的时候,更会产生伪影。这些伪影偶尔出现在迭代和不同的设置中,违反了对训练稳定性能的需求。所以为了稳定的训练和一致的性能,作者去掉了BN层。此外,去掉BN层也能提高模型的泛化能力,减少计算复杂度和内存占用。

1.2 discriminator

作者基于Relativistic GAN改进了判别器。判别器 D 使用的网络是 VGG 网络,SRGAN中的判别器D用于估计输入到判别器中的图像是真实且自然图像的概率,而Relativistic D则尝试估计真实图像相对来说比fake图像更逼真的概率。

[外链图片转存失败(img-hOIavMYt-1565667100952)(assets/1564490401625.png)]

作者把标准的判别器换成Relativistic average Discriminator(RaD),在SRGAN中的标准D可以表示为D(X)=σ(C(X)),其中σ是Sigmoid函数,C(X)是非变换的鉴别器输出。然后将RaD定义为 D R a ( x r , x f ) = σ ( C ( x r ) − E x f [ C ( x f ) ] ) D_{Ra}(x_r,x_f)=\sigma(C(x_r)-E_{x_f}[C(x_f)]) DRa(xr,xf)=σ(C(xr)Exf[C(xf)]),其中 E x f [ ⋅ ] E_{x_f}[·] Exf[]表示取batchsize中所有fake data的平均值。所以

  • 判别器损失函数为:
    L D R a = − E x r [ l o g ( D R a ( x r , x y ) ) ] − E x f [ 1 − l o g ( D R

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值