「Deep Learning」Note on WGAN

WGAN原理与实践
本文介绍了Wasserstein GAN(WGAN)的基本概念及其相对于传统GAN的优势,包括提高训练稳定性、减少模式坍塌等问题。文章详细探讨了不同类型的概率距离度量,并重点介绍了EM距离在WGAN中的应用。

QQ Group: 428014259
Tencent E-mail:403568338@qq.com
http://blog.youkuaiyun.com/dgyuanshaofeng/article/details/80154161

作者:Martin Arjovsky, Soumith Chintala, Léon Bottou
单位:Courant Institute of Mathematical Sciences;Facebook AI Research

读的是ICML版本[2]。

0 摘要

与传统GAN的训练相比,WGAN可以提升学习的稳定,避免mode collapse(模式坍塌),提供有意义的学习曲线即生成图像的效果跟损失有关,这有利于debugging和超参数搜索。

1 介绍

WGAN前传论文[2]从理论上得到定论:训练GAN是delicate和unstable。WGAN研究如何measure模型分布 P θ \text P_{\theta} Pθ和真实数据分布 P r \text P_{r} Pr的距离或散度 ρ ( A , B ) \rho(A,B) ρ(A,B)。使得映射连续,意味着,参数序列收敛到 θ \theta θ,分布也收敛到 P θ \text P_{\theta} Pθ。上述收敛取决于模型分布和数据分布两者间的距离。距离越弱,收敛越容易。

论文贡献:1、分析the Earth Mover distance,EM距离;2、定义Wasserstein-GAN,即WGAN;3、实验验证WGAN如何治愈GAN的训练不稳定,使得不需要考虑判别器和生成器的平衡训练,不需要精心设计网络结构(DCGAN是精心设计的),减少mode dropping(模式丢掉)即模式坍圮,还有学习曲线具有指导意义。

2 不同距离

全变分距离: δ ( P r , P g ) = sup ⁡ A ∈ Σ ∣ P r ( A ) − P g ( A ) ∣ \delta(\text P_{r}, \text P_{g})=\sup_{A \in \Sigma}{|\text P_{r}(A)-\text P_{g}(A)|} δ(Pr,Pg)=supAΣPr(A)Pg(A)
Σ \Sigma Σ 表示 X \Chi X的所有Borel波莱尔子集的集合, X \Chi X表示紧凑测度集。

Kullback-Leibler散度: K L ( P r ∣ ∣ P g ) = ∫ log ( P r P g ) P r d μ ( x ) KL(\text P_{r}||\text P_{g})=\int \text{log}(\cfrac{\text P_{r}}{\text P_{g}})\text P_{r}d\mu(x) KL(PrPg)=log(PgPr)Prdμ(x)
P r \text P_{r} Pr P g \text P_{g} Pg是定义在紧凑测度集 X \Chi X上,对于测度 μ \mu μ的准许(候选)概率密度即前后两次密度。KL散度是不对称的。

Jensen-Shannon散度:: J S ( P r , P g ) = K L ( P r ∣ ∣ P m ) + K L ( P g ∣ ∣ P m ) JS(\text P_{r}, \text P_{g})=KL(\text P_{r}||\text P_{m})+KL(\text P_{g}||\text P_{m}) JS(Pr,Pg)=KL(PrPm)+KL(PgPm)
P m \text P_{m} Pm是混合概率密度,为( P r \text P_{r} Pr+ P g \text P_{g} Pg)/2。JS散度是对称的,并且当 μ = P m \mu=\text P_{m} μ=Pm时,处处有定义。

Earth-Mover距离或Wasserstein-1: W ( P r , P g ) = inf ⁡ γ ∈ ∏ ( P r , P g ) E ( x , y ) ∼ γ [ ∣ ∣ x − y ∣ ∣ ] W(\text P_{r}, \text P_{g})=\inf_{\gamma \in \prod(\text P_{r}, \text P_{g})} \text E_{(x,y)\sim \gamma}[||x-y||] W(Pr,Pg)=infγ(Pr,Pg)E(x,y)γ[xy]
∏ ( P r , P g ) \prod(\text P_{r}, \text P_{g}) (Pr,Pg)是所有联合分布 γ ( x , y ) \gamma(x,y) γ(x,y)的集合,边缘概率分布为 P r \text P_{r} Pr P g \text P_{g} Pg
EM距离是最优传输的代价。

Example 1:学习平行线,这个例子说明在EM距离下,概率分布序列可以收敛,而在其他距离下,不可以收敛。

3 Wasserstein GAN

[1] Wasserstein GAN 2017 [paper]
[2] Wasserstein Generative Adversarial Networks ICML 2017 [paper]
[3] Towards Principled Methods for Training Generative Adversarial Networks ICLR 2017 [paper]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值