【研究生工作周报】(NICE-GAN论文再回顾)

NICE-GAN详解
本文深入探讨了NICE-GAN模型,重点介绍了其创新的架构,包括多尺度判别器、残差注意力机制和自适应混合归一化层。此外,还详细解析了其独特的解耦训练策略和损失函数设计。

NICE-GAN



前言

早在假期就对这篇论文做过初步研究,但碍于当时在对抗生成网络这一领域的基础比较薄弱,所以对论文的理解比较肤浅。通过这段时间对CGAN,pix2pix,CycleGAN等经典GAN模型学习之后,在理论和实践层面对GAN有了一个比较系统的认识。本周就NICE-GAN模型进行一个理论上的总结。


一、图像翻译的问题定义

  
对于两个图像域 D o m a i n X Domain X DomainX D o m a i n Y Domain Y DomainY
监督图像翻译:给定联合分布 p ( X , Y ) p(X,Y) p(X,Y),学习条件映射 f x → y = p ( Y ∣ X ) f_{x \rightarrow y} = p(Y|X) fxy=p(YX) f y → x = p ( X ∣ Y ) f_{y \rightarrow x} = p(X|Y) fyx=p(XY)
而无监督图像翻译:给定边缘分布 p ( X ) p(X) p(X) p ( Y ) p(Y) p(Y);学习条件映射 f x → y = p ( Y ∣ X ) f_{x \rightarrow y} = p(Y|X) fxy=p(YX) f y → x = p ( X ∣ Y ) f_{y \rightarrow x} = p(X|Y) fyx=p(XY)

  现在的问题是做无监督的图像翻译时,可以有无数个条件概率 p ( Y ∣ X ) p(Y|X) p(YX) p ( X ∣ Y ) p(X|Y) p(XY) 服从相同的边缘分布 p ( X ) p(X) p(X) p ( Y ) p(Y) p(Y) ,这也诠释了为什么衡量Cycle-GAN性能时会以pix2pix模型作为Top-line。为了解决这个问题,不同模型都有自己的策略:UNIT使用了weight-coupling,Cycle-GAN使用的cycle-consistency,identity-mapping-enforcing。

对于大多数现存的架构来说,翻译过程可以表述为:

编码器 E x E_{x} Ex和生成器 G x → y G_{x \rightarrow y} Gxy组合实现图像的生成
y ′ = f x → y ( x ) = G x → y ( E x ( x ) ) y' = f_{x \rightarrow y}(x) = G_{x \rightarrow y}(E_{x}(x)) y=fxy(x)=Gxy(Ex(x))
再拿判别器 D y D_{y} Dy 区分真实图像 y y y 和生成图像 y ′ y' y
( y → x y \rightarrow x yx 同理, x ′ = f y → x ( y ) = G y → x ( E y ( y ) ) x' = f_{y \rightarrow x}(y) = G_{y \rightarrow x}(E_{y}(y)) x=fyx(y)=Gyx(Ey(y)))

NICE-GAN模型使用判别器进行编码
在这里插入图片描述
这里我们把判别器 D x D_{x} Dx 拆分成编码部分 E x D E^{D}_{x} ExD 和分类部分 C x D C^{D}_{x} CxD

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值