QQ Group: 428014259
Tencent E-mail:403568338@qq.com
http://blog.youkuaiyun.com/dgyuanshaofeng/article/details/80154161
作者:Martin Arjovsky, Soumith Chintala, Léon Bottou
单位:Courant Institute of Mathematical Sciences;Facebook AI Research
读的是ICML版本[2]。
0 摘要
与传统GAN的训练相比,WGAN可以提升学习的稳定,避免mode collapse(模式坍塌),提供有意义的学习曲线即生成图像的效果跟损失有关,这有利于debugging和超参数搜索。
1 介绍
WGAN前传论文[2]从理论上得到定论:训练GAN是delicate和unstable。WGAN研究如何measure模型分布 P θ \text P_{\theta} Pθ和真实数据分布 P r \text P_{r} Pr的距离或散度 ρ ( A , B ) \rho(A,B) ρ(A,B)。使得映射连续,意味着,参数序列收敛到 θ \theta θ,分布也收敛到 P θ \text P_{\theta} Pθ。上述收敛取决于模型分布和数据分布两者间的距离。距离越弱,收敛越容易。
论文贡献:1、分析the Earth Mover distance,EM距离;2、定义Wasserstein-GAN,即WGAN;3、实验验证WGAN如何治愈GAN的训练不稳定,使得不需要考虑判别器和生成器的平衡训练,不需要精心设计网络结构(DCGAN是精心设计的),减少mode dropping(模式丢掉)即模式坍圮,还有学习曲线具有指导意义。
2 不同距离
全变分距离:
δ
(
P
r
,
P
g
)
=
sup
A
∈
Σ
∣
P
r
(
A
)
−
P
g
(
A
)
∣
\delta(\text P_{r}, \text P_{g})=\sup_{A \in \Sigma}{|\text P_{r}(A)-\text P_{g}(A)|}
δ(Pr,Pg)=supA∈Σ∣Pr(A)−Pg(A)∣
Σ
\Sigma
Σ 表示
X
\Chi
X的所有Borel波莱尔子集的集合,
X
\Chi
X表示紧凑测度集。
Kullback-Leibler散度:
K
L
(
P
r
∣
∣
P
g
)
=
∫
log
(
P
r
P
g
)
P
r
d
μ
(
x
)
KL(\text P_{r}||\text P_{g})=\int \text{log}(\cfrac{\text P_{r}}{\text P_{g}})\text P_{r}d\mu(x)
KL(Pr∣∣Pg)=∫log(PgPr)Prdμ(x)
P
r
\text P_{r}
Pr和
P
g
\text P_{g}
Pg是定义在紧凑测度集
X
\Chi
X上,对于测度
μ
\mu
μ的准许(候选)概率密度即前后两次密度。KL散度是不对称的。
Jensen-Shannon散度::
J
S
(
P
r
,
P
g
)
=
K
L
(
P
r
∣
∣
P
m
)
+
K
L
(
P
g
∣
∣
P
m
)
JS(\text P_{r}, \text P_{g})=KL(\text P_{r}||\text P_{m})+KL(\text P_{g}||\text P_{m})
JS(Pr,Pg)=KL(Pr∣∣Pm)+KL(Pg∣∣Pm)
P
m
\text P_{m}
Pm是混合概率密度,为(
P
r
\text P_{r}
Pr+
P
g
\text P_{g}
Pg)/2。JS散度是对称的,并且当
μ
=
P
m
\mu=\text P_{m}
μ=Pm时,处处有定义。
Earth-Mover距离或Wasserstein-1:
W
(
P
r
,
P
g
)
=
inf
γ
∈
∏
(
P
r
,
P
g
)
E
(
x
,
y
)
∼
γ
[
∣
∣
x
−
y
∣
∣
]
W(\text P_{r}, \text P_{g})=\inf_{\gamma \in \prod(\text P_{r}, \text P_{g})} \text E_{(x,y)\sim \gamma}[||x-y||]
W(Pr,Pg)=infγ∈∏(Pr,Pg)E(x,y)∼γ[∣∣x−y∣∣]
∏
(
P
r
,
P
g
)
\prod(\text P_{r}, \text P_{g})
∏(Pr,Pg)是所有联合分布
γ
(
x
,
y
)
\gamma(x,y)
γ(x,y)的集合,边缘概率分布为
P
r
\text P_{r}
Pr和
P
g
\text P_{g}
Pg。
EM距离是最优传输的代价。
Example 1:学习平行线,这个例子说明在EM距离下,概率分布序列可以收敛,而在其他距离下,不可以收敛。
3 Wasserstein GAN
[1] Wasserstein GAN 2017 [paper]
[2] Wasserstein Generative Adversarial Networks ICML 2017 [paper]
[3] Towards Principled Methods for Training Generative Adversarial Networks ICLR 2017 [paper]