NICE-GAN
文章目录
前言
早在假期就对这篇论文做过初步研究,但碍于当时在对抗生成网络这一领域的基础比较薄弱,所以对论文的理解比较肤浅。通过这段时间对CGAN,pix2pix,CycleGAN等经典GAN模型学习之后,在理论和实践层面对GAN有了一个比较系统的认识。本周就NICE-GAN模型进行一个理论上的总结。
一、图像翻译的问题定义
对于两个图像域 D o m a i n X Domain X DomainX和 D o m a i n Y Domain Y DomainY,
监督图像翻译:给定联合分布 p ( X , Y ) p(X,Y) p(X,Y),学习条件映射 f x → y = p ( Y ∣ X ) f_{x \rightarrow y} = p(Y|X) fx→y=p(Y∣X) 和 f y → x = p ( X ∣ Y ) f_{y \rightarrow x} = p(X|Y) fy→x=p(X∣Y)
而无监督图像翻译:给定边缘分布 p ( X ) p(X) p(X), p ( Y ) p(Y) p(Y);学习条件映射 f x → y = p ( Y ∣ X ) f_{x \rightarrow y} = p(Y|X) fx→y=p(Y∣X) 和 f y → x = p ( X ∣ Y ) f_{y \rightarrow x} = p(X|Y) fy→x=p(X∣Y)。
现在的问题是做无监督的图像翻译时,可以有无数个条件概率 p ( Y ∣ X ) p(Y|X) p(Y∣X) 和 p ( X ∣ Y ) p(X|Y) p(X∣Y) 服从相同的边缘分布 p ( X ) p(X) p(X) , p ( Y ) p(Y) p(Y) ,这也诠释了为什么衡量Cycle-GAN性能时会以pix2pix模型作为Top-line。为了解决这个问题,不同模型都有自己的策略:UNIT使用了weight-coupling,Cycle-GAN使用的cycle-consistency,identity-mapping-enforcing。
对于大多数现存的架构来说,翻译过程可以表述为:
编码器 E x E_{x} Ex和生成器 G x → y G_{x \rightarrow y} Gx→y组合实现图像的生成
y ′ = f x → y ( x ) = G x → y ( E x ( x ) ) y' = f_{x \rightarrow y}(x) = G_{x \rightarrow y}(E_{x}(x)) y′=fx→y(x)=Gx→y(Ex(x))
再拿判别器 D y D_{y} Dy 区分真实图像 y y y 和生成图像 y ′ y' y′ 。
( y → x y \rightarrow x y→x 同理, x ′ = f y → x ( y ) = G y → x ( E y ( y ) ) x' = f_{y \rightarrow x}(y) = G_{y \rightarrow x}(E_{y}(y)) x′=fy→x(y)=Gy→x(Ey(y)))
NICE-GAN模型使用判别器进行编码

这里我们把判别器 D x D_{x} Dx 拆分成编码部分 E x D E^{D}_{x} ExD 和分类部分 C x D C^{D}_{x} CxD
NICE-GAN详解

本文深入探讨了NICE-GAN模型,重点介绍了其创新的架构,包括多尺度判别器、残差注意力机制和自适应混合归一化层。此外,还详细解析了其独特的解耦训练策略和损失函数设计。
最低0.47元/天 解锁文章
519

被折叠的 条评论
为什么被折叠?



