Wasserstein GAN
来自Martin Arjovsky 100 等人的“Wasserstein GAN”。
1. 简介
本文关心的问题为无监督学习问题。学习
1
个概率分布意味着什么?传统的回答:学习概率密度。常通过定义密度
真实数据的分布 Pr 给出概率密度,而 Pθ 为参数化的概率密度 Pθ ,那么,学习概率密度渐近等于最小化Kullback-Leibler散度 KL(Pr||Pθ) 。
为使其有意义,需存在模型密度 Pθ 。 但这并不是常见的处理低维流形支撑的模型流形,且意味着KL距离未被定义(或只是无穷大)。
一般可对模型分布添加噪声项来补救。所以,经典机器学习文献中,几乎所有的生成模型都包括噪声项。最简单的情况:为覆盖所有样本,假设较高带宽的高斯噪声。众所周知,如图像生成模型,添加噪声会降低样本质量,并会模糊图像。如(最近的文章 [22]):最大似然生成图像中每个像素时,对模型所添加噪声,噪声的最优标准差大约为 0.1 ,此时已归一化像素范围至 [0,1] 。噪声巨大,以至于文章作者给出模型生成的样本时,未在似然上添加噪声项。换言之,图像生成问题上,添加噪声项显然不正确,但仍需用最大似然方法。
不再估计可能不存在的
Pr
密度,可定义有固定分布
p(z)
的随机变量
Z
,传入
- 该方法可表示受低维流形限制的分布;
- 易生成样本比了解密度的数值更有用(如图像超分辨率和语义分割中,给定输入图像,考虑输出图像的条件分布)。
总之,给定任意高维的密度,计算上难以生成样本 [15] 。
变分自编码器(VAEs) [9] 和 生成的对抗网络(GANs)[4] 为参函数生成图像方法的范例。VAEs近似样本的似然,所以,受限标准模型,需耐心调整额外的噪声项;GANs定义目标函数(包括Jensen-Shannon [4],所有 f 散度 [16] 及奇异的(exotic)合并 [6])时更灵活,另一方面,众所周知,GANs的训练微妙且不稳定,原因见理论研究 [1]。
本文转而关注用不同的方法来度量模型分布接近真实分布的程度,或者说,定义距离或散度
当
ρ 下的收敛序列集为 ρ′ 下的收敛序列集的超集时, ρ 引入的拓扑弱于 ρ′ 引入的拓扑。为优化参数 θ ,当然希望定义的模型分布 Pθ 可使映射 θ→Pθ 连续。连续性意味着当参数序列 θt 收敛至 θ 时,分布 Pθt 也收敛至分布 Pθ 。然而,分布序列 Pθt 收敛取决于如何计算分布间的距离。距离越弱,分布序列越易收敛,因此越易定义从 θ 空间到 Pθ 空间的连续映射。考虑映射 θ→Pθ 连续是因为:若 ρ 为两分布间的距离,希望损失函数 θ→ρ(Pθ,Pr) 连续,等价于使用分布 ρ 间的距离时,映射 θ→Pθ 连续。
本文的贡献有:
- 第 2 节,全面地理论分析学习分布时,相比流行的概率距离和散度,推土机距离(Earth Mover distance)的表现。
- 第
3 节,定义一种GAN,称其为Wasserstein-GAN。有效合理地近似EM距离,最小化EM距离。并理论上显示对应的优化问题可靠。- 第 4 节,经验上显示WGANs解决了GANs主要的训练问题。特别地,(i)训练WGANs不要求小心平衡生成器和判别器的训练;(ii)不要求小心设计网络结构;(iii)显著减少GANs中典型的模式减少(mode dropping)现象;(iv)训练判别器至最优来连续估计EM距离;(v)绘制学习曲线有助调试和超参数搜索,并与观测到的图像质量紧密关联。
2. 不同的距离
标记介绍。令
X 为紧度量集(如图像空间 [0,1]d )101,并令 Σ 为 X 所有Borel子集的集合。令Prob(X) 为定义在 X 上的概率度量空间。样本方差不为
0 ,所以为Borel子集 102 。定义 2 个分布
Pr,Pg∈Prob(X) 间基本的距离和散度:
- 全变差(Total Variation,TV)距离
σ(Pr,Pg)=supA∈Σ|Pr(A)−Pg(A)|.- Kullback-Leibler(KL)距离 103
KL(Pr||Pg)=∫log(Pr(x)Pg(x))Pr(x)dμ(x),其中,假设 Pr 和 Pg 绝对连续,关于定义在 X 上用相同的度量
μ 输出密度。KL散度不对称,且当存在点使 Pg(x)=0且Pr(x)>0 时,KL散度可能为无穷大。概率分布 Pr∈Prob(X) 输出关于 μ 的概率密度 pr(x) ,即, ∀A∈Σ,Pr(A)=∫APr(x)dμ(x) ,当且仅当 Pr(x) 关于 μ 绝对连续,即, ∀A∈Σ,μ(A)=0→Pr(A)=0 。
Jensen-Shannon(JS)距离
JS(Pr,Pg)=12KL(Pr||Pm)+12KL(Pg||Pm),
其中, Pm=Pr+Pg2 。JS散度对称,且可选 μ=Pm ,此时JS散度总有定义(defined)。推土机(Earth-Mover,EM)距离
W(Pr,Pg)=infγ∈∏(Pr,Pg)E(x,y)∼γ[||x−y||],(1)
其中, ∏(Pr,Pg) 为所有联合分布 γ(x,y) 的集合,它的边缘分布分别为 Pr 和 Pg 。直观上看, γ(x,y) 表明:为转移分布 Pr 至分布 Pg ,必须从 x 到y 来转移多少“质量”。那么,EM距离为最优传输计划(optimal transport plan)的“代价”。EM距离求下确界,即至少要转移多少“质量”。所以,原文中,作者用“must”描述。
后面举例说明用EM距离来收敛概率分布序列多简单,但上面定义的其它距离和散度无法收敛。
例1 (学习平行线)。令 Z∼U[0,1] (单位区间上的均匀分布)。令 P0 为 (0,Z)∈R2 的分布( x 轴上为
0 , y 轴上为随机变量Z ,经过原点的垂直线段上的均匀分布)。令 gθ(z)=(θ,z),θ 为单个实参数。此时有:
- W(P0,Pθ)=|θ|,
- JS(P0,Pθ)={log2,if θ≠0,0,if θ=0,
- KL(Pθ||P0)=KL(P0||Pθ)={+∞,if θ≠0,0,if θ=0,
- σ(P0||Pθ)={1,if θ≠0,0,if θ=0.
已知: P0={1,if x=0,0≤y≤1,0,otherwise. , Pθ={1,if x=θ,0≤y≤1,0,otherwise.
θ≠0 时,
KL(P0||Pθ)=∑x,y∈R2P0(x,y)logP0(x,y)−∑x,y∈R2P0(x,y)logPθ(x,y)=0log0+1log1−(1log0+0log1)=0+0−(−∞)+0=+∞=KL(Pθ||P0)
θ=0 时,
KL(P0||Pθ)=KL(P0||P0)=0log0+1log1=0已知: Pm=Pr+Pg2=⎧⎩⎨0.5,if x=0,0≤y≤1,0.5,if x=θ,0≤y≤1,0,otherwise. , JS(P0||Pθ)=12KL(P0||Pm)+12KL(Pθ||Pm)
θ≠0 时,
KL(P0||Pm)=0log0+1log1−(1log0.5+0log0.5+0log0)=log2=KL(Pθ||Pm)→JS(P0||Pθ)=log2
θ=0 时,
KL(P0||Pm)=KL(P0||P0)=0→JS(P0||Pθ)=0- 本例的两条线段相距 θ,||x−y||≡θ→ 两条线段间距离的期望的下确界为 θ 。
- P0 和 Pθ 表示概率分布,范围为 [0,1]→|P0−Pθ| 的上确界为 1 (
θ≠0 时)或 0 (θ=0 时)。当 θ→0 时,EM距离使序列 (Pθt)t∈N 收敛至 P0 ,但用JS,KL,逆KL或TV散度时不会收敛。图 1 为EM距离和JS距离。
例
1 说明EM距离上梯度下降可学到低维流形上的概率分布。不可用其它距离,因它们的损失函数甚至不连续。即使该例基于不相交支集的分布,当支集非空但包含 0 测度集时,结论同样成立。当2 个低维以任意位置相交时 [1],碰巧也成立。
因Wasserstein距离比JS距离更弱,问题变成:温和假设下, W(Pr,Pθ) 是否为关于 θ 的连续损失函数。定理 1. 令 Pr 为 X 上的固定分布。令
Z 为另 1 个空间Z 上的随机变量(如:高斯分布空间)。令 g:Z×Rd→X 为 1 个函数。用z 作第 1 个坐标,θ 作第 2 个坐标来表示gθ(z) 。令 Pθ 为 gθ(z) 的分布。那么,
1. 若 g 在θ 上连续, W(Pr,Pθ) 在 θ 上也连续。
2. 若 g 为局部Lipschitz,并满足规则假设1 ,则 W(Pr,Pθ) 处处连续,几乎处处可微。
3. 对JS散度和所有KL散度,声明 1−2 为假。证明见附录 C 。
后面推论告诉我们:用神经网络来最小化EM距离(至少理论上)可行。
推论 1. 令
gθ 为任意用 θ 参数化的前向神经网络,且 p(z) 为 z 上的先验,使得Ez∼p(z)[||z||]<∞ (如,高斯分布,均匀分布等)。则满足假设 1 ,因此,W(Pr,Pθ) 处处连续,几乎处处可微。证明见附录 C 。
所有这些说明:对我们的问题,至少与JS散度相比,EM距离作损失函数更合理。后面定理描述这些距离和散度引入拓扑的相对强度:KL最强,紧随JS和TV,EM最弱。
推论 2. 令
P 为紧空间 X 上的分布,且(Pn)n∈N 为 X 上的分布序列。那么,当n→0 时,考虑所有的限制,
1. 下面声明等价
- σ(Pn,P)→0 , σ 为全变差距离;
- JS(Pn,P)→0 , JS 为Jensen-Shannon散度。
2. 下面声明等价
- W(Pn,P)→0 ;
- Pn⟶DP ,其中, ⟶D 表示关于随机变量的分布的收敛。
3. KL(Pn||P)→0 或 KL(P||Pn)→0 隐含(imply)声明 (1) 。
4. 声明 (1) 隐含声明 (2) 。证明见附录 C 。
这里强调的事实:学习低维流形支撑的分布时,KL,JS和TV距离为不合理的损失函数。但此时EM距离却合理:
- EM距离可使概率序列收敛至真实数据的概率分布,其它距离不可收敛;
- EM距离的损失函数连续,可用梯度下降学习低维流形上的概率分布;其它距离的损失函数不连续;
- EM距离引入的拓扑相对强度最弱。
3. Wasserstein GAN
定理
2 指出, W(Pr,Pθ) 可能比 JS(Pr,Pθ) 有更好的属性。 (1) 中的下确界很难解。
另一方面,由Kantorovich-Rubinstein二重性(duality) [21] 知
W(Pr,Pθ)=sup||f||L≤1Ex∼Pr[f(x)]−Ex∼Pθ[f(x)](2)
其中,上确界覆盖所有 1 -Lipschitz函数f:X→R 。注意到,若替换 ||f||L≤1 为 ||f||L≤K (考虑常数 K deK -Lipschitz),则EM距离变为 K⋅W(Pr,Pθ) 。因此,若有参函数簇 {fw}w∈W ,对某些 K ,参函数都为K -Lipschitz,考虑求解:
maxw∈WEx∼Pr[fw(x)]−Ez∼p(z)[fw(gθ(z))](3)
且对某些 w∈W (类似证明估计器一致性时的假设的一强假设),当获得 (2) 中的上确界时,求解过程计算出的 W(Pr,Pθ) 能达到乘常数 K 。进一步,考虑估计Ez∼p(z)[∇θfw(gθ(z))] 反传方程 (2) 来求导 W(Pr,Pθ) 。虽这全是直觉,现在证明最优假设下该过程是有原则的(principled)。定理 3. 令 Pr 为任意分布。令 Pθ 为 gθ(Z) 的分布( Z 为随机变量,该分布的概率密度为
p , gθ 为满足假设 1 的函数)。那么,对问题
max||f||L≤1Ex∼Pr[f(x)]−Ex∼Pθ[f(x)]
存在解 f:X→R ,当 Pr 和 Pθ 都为良定时,有:
∇θW(Pr,Pθ)=−Ez∼p(z)[∇θf(gθ(z))]证明见附录 C 。
接着,最大化方程
(2) 来找函数 f 。为近似求解f ,用紧空间 X 中的权重w 来参数化一神经网络,训练该网络。然后,同典型的GAN,用 Ez∼p(z)[∇θfw(gθ(z))] 反传。注意到 W 紧致,则对某些仅取决W (而非个别网络权重)的 K ,所有函数fw 将为 K -Lipschitz。因此,近似(2) 至一无关的缩放因子和“评价者”(critic) fw 的容量。为使参数 w 落入紧空间,每次梯度更新后夹紧权重至固定的范围即可(假设W=[−0.01,0.01]l )。方法 1 描述Wasserstein生成对抗网络(WGAN)过程。
注:“评价者”和“判别器”应是一回事,我更习惯用GAN框架来说明,所以后面统一用“判别器”替换“评价者”。原作者用两个不同的词,考虑到后面比较GAN判别器(判别器)和WGAN判别器(评价者)时便于说明。所以,这里,WGAN与GAN比较时,将“评价者”替换为“WGAN判别器”;无比较时,仍用“判别器”。
θ 为生成网络的参数,决定生成模型的分布与真实数据分布的距离; w 为判别网络的参数,最大化EM距离损失函数来获得最优判别网络的参数。EM距离处处连续,且几乎处处可微,所以应该能训练判别器至最优。参数简单,训练判别器的时间越长,得到的EM距离的梯度越可靠。
判别器越好,JS散度的梯度越可靠。但会因JS散度局部饱和,真实梯度为
0 ,梯度消失,见图 1 和 [1] 中定理2.4 。图 2 中,为证明这点,训练GAN判别器和WGAN判别器至最优。GAN判别器很快学会区分真伪数据,同期望一样,并未提供可靠的梯度信息。然而,WGAN判别器不饱和,收敛至线性函数并处处给出很明确的梯度;约束梯度限制了函数,使其可能在空间不同部分至多线性增长。
训练WGAN判别器至最优不会破坏(collapse)模式。固定判别器来找最优生成器是指使判别器输出最大值的点上变量增量的和 [11]。
后面介绍新方法的实际效益,深入比较WGAN与传统GAN。
4. 经验结果
用Wasserstein-GAN方法生成图像,相比标准GANs,有显著的实际效益,主要有两点:
- 有意义的损失度量:关联生成器的收敛性和样本质量;
- 优化过程更稳定。
4.1 实验过程
生成图像实验。真实数据分布为LSUN-卧室数据集 [23] - 室内卧室自然图像的集合。基线比较为DCGAN,DCGAN用
−logD ,标准的GAN过程训练一卷积网络结构的GAN。生成样本为分辨率 64×64 的 3 通道图像。4.2 有意义的损失度量
因每次生成器更新前(方法
1 的行 10 ),WGAN试图训练出相对较好的WGAN判别器 f (方法1 的行 2−8 ),此时损失函数为估计EM距离,上界为某常数,该常数与我们约束 f 的Lipschitz常数有关。实验
1 表明估计EM距离与生成样本密切相关。除卷积的DCGAN结构,用 4 层ReLU-MLP(每层包含512 个隐含单元)只替换生成器或同时替换生成器和判别器来运行实验。图 3 为
3 种结构的WGAN训练时,估计的EM距离的变化。该图清楚显示,曲线与生成样本的视觉质量密切相关。
然而,还不能定量评估生成模型。常数缩放因子取决于WGAN判别器的结构,所以,不同的WGAN判别器模型间难以比较。甚至,实际上判别器容量有限,所以,难以了解真实的EM距离与估计的EM距离多接近。可话说回来,用该损失度量重复且成功验证了实验,相比之前GAN的训练能力有巨大的提高。
相反,图 4 为GAN训练时,估计的JS散度的变化。更确切地,GAN训练时,训练判别器来最大化:
L(D,gθ)=Ex∼Pr[logD(x)]+Ex∼Pθ[log(1−D(x))] 注: x∼Pr 时, x 为真实样本,希望
D(x)↑ ; x∼Pθ 时, x 为生成样本,希望D(x)↓ 。其中, L(D,gθ) 的下界为 2JS(Pr,Pθ)−2log2 。图中,值 12L(D,gθ)+log2 为JS距离的下界。
JS距离的下界与样本质量关系很差。估计的JS距离通常保持不变或上升(而非下降)。实际上,JS估计值常保持为接近 log2≈0.69 (JS距离的最大值)。换句话说,JS距离饱和,GAN判别器损失为 0 ,某些情况下(DCGAN生成器,右上图)生成样本有意义,其它情况下被破坏为无意义图像。该现象的理论解释见 [1],强调见 [11]。
用
−logD 时,判别器损失与生成器损失不同。附录的图 8 绘制相同的图,但用生成器损失(而非判别器损失)。结论不变。
负面结果:当对WGAN判别器用基于动量的优化方法(如Adam)或用很高的学习率时,训练WGAN会偶尔不稳定。因WGAN判别器的损失并非稳态,基于动量的方法可能会表现更糟。因损失爆炸和生成样本变差时,Adam步与梯度的余弦角变为负值,所以动量可能为潜在的原因。训练不稳定时,余弦角必为负值。很不平稳时,改用RMSProp效果不错。
4.3 改善稳定性
可训练WGAN判别器至最优。训练判别器时,仅需为生成器提供训练其它网络时所用到的损失。不再需合理均衡生成器和判别器的容量。判别器越好,训练生成器所用梯度的质量越高。
改变生成器的结构时,WGAN比其它GANs更鲁棒。为此,
3 个不同的生成器结构上运行实验:(1)卷积DCGAN生成器;(2)卷积DCGAN生成器,不带块归一化,滤波器数目不变;(3) 512 个隐含单元组成的 4 层ReLU-MLP。后面2 中用GANs表现很差。所以,为WGAN判别器和GAN判别器保留卷积DCGAN结构。
图 5 ,图6 和图 7 显示用到WGAN和GAN时,3 种结构生成的样本。整页的生成样本见附录 F 。样本未经优选。
实验中,从未见过用WGAN时模式被破坏。
5. 相关工作
积分概率度量(Integral Probability Metric,IPMs)上有很多工作。给定从
X 到 R 的函数集合,定义
dF(Pr,Pθ)=supf∈FEx∼Pr[f(x)]−Ex∼Pθ[f(x)](4)
为关联函数类 F 的积分概率度量。易证对任意f∈F ,有 −f∈F ,则 dF 为非负,满足三角不等式,且对称。因此, dF 为 Prob(X) 的伪距离。
IPMs可能公式相似,但不同的函数类会得到完全不同度量。
- 由Kantorovich-Rubinstein对偶可知,当 F 为
1−Lipschitz 函数集合时, W(Pr,Pθ)=dF(Pr,Pθ) 。进一步,若 F 为K−Lipschitz 函数,则 K⋅W(Pr,Pθ)=dF(Pr,Pθ) 。- 当 F 为所有
−1 到 1 之间的可测量函数(或所有[−1,1] 上的连续函数)时,恢复为全变差距离: dF(Pr,Pθ)=σ(Pr,Pθ) [14]。这告诉我们损失函数从 1−Lipschitz 函数变至 1− 有界函数,大大改变了空间的拓扑和 dF(Pr,Pθ) 的正则性(regularity)(见定理 1 和定理2 )。
-可认为基于能量的GANs(EBGANs)是用全变差距离的生成方法。附录 D 中声明和进一步证明这一关联,关键为判别器作为函数f 来最大化方程 4 ,唯一的限制是对常数m ,函数输出约束在 [0,m] 。取决于无关优化的常数缩放因子,同样可约束至 [−1,1] 。因此,当判别器接近最优时,生成器的代价将逼近全变差距离 σ(Pr,Pθ) 。
因全变差距离与JS散度的正则性相似,可看出,无论是否能训练判别器至最优,EBGANs与经典的GANs问题相同,因此它的梯度也很不完美。- 当 F={f∈H:||f||inf≤1} (其中, H 为关联给定核
k 的再生核Hilbert空间(Reproducing Kernel Hilbert Space,RKHS),核 k :X×X→R )时,最大均值矛盾(Maximum Mean Discrepancy,MMD)[5] 为积分概率度量的特殊情况。如 [5] 中所证,MMD只是个合适的度量,且当核通用时不仅是伪度量。具体地,当 H=L2(X,m) 时, X 上用归一化Lebesgue度量F ,可知 F 中包含{f∈Cb(x),||f||∞≤1} ,因此 dF(Pr,Pθ)≤σ(Pr,Pθ) 。所以,以MMD距离为损失函数的正则性与全变差距离的正则性同样差。然而这是非常极端的例子,因为需要很强大的核来近似 L2 。但即使高斯核也仅能检测微小的噪声模式 [19]。尤其当使用低带宽的核时,距离可能接近类似全变差距离或JS距离的饱和方法。显然不需要每个核都如此,弄清不同MMDs如何及哪些更接近Wasserstein距离或全变差距离也很有趣。
MMD的优势为用核方法后无需为RKHS球空间来训练单独的网络来最大化方程 (4) 。然而,MMD的劣势为计算代价随用于估计 (4) 中期望的样本数目二次增长;MMD可伸缩性有限,因此无法用于许多现实应用。线性计算代价估计MMD距离大多时候会很有用,但样本复杂度太高。- 生成矩匹配网络(Generative Moment Match Nework,GMMD)类似MMD。反传方程 (4) 的核化形式,直接优化 dMMD(Pr,Pθ) (当 F 为前面项时的IPM,见P12)。如前所述,不要求单独的网络来近似最大化方程
(4) 。然而,GMMNs应用有限,部分原因是样本数目的函数为二次代价,用低带宽核时梯度会消失。并且实际用到的一些核不适合如自然图像等高维样本空间中获得的距离非常差。[18] 中表明,为让典型的高斯MMD测试可靠,需样本数目与维度数目线性增长。估计方程 (4) 中时用的块,MMD的计算代价与样本数目二次增长。有可靠的估计器的代价与维度数目二次增长,不适用高维问题。如 64×64 大小的标准图像,所需小块的大小至少 4096 (不考虑 [18] 边界中的常数,使样本数目更多),且每次迭代的总代价为 40962 。当用标准的块大小 64×64 时,比 1 次GAN迭代多5 个数量级。
话虽如此,比较MMDs的理论样本复杂度和GANs的经验样本复杂度时(一般会更高),对MMD不公平。然而,原GMMN文章中用到的小块大小为 1000 ,远大于标准的 32 或 64 (即使出现二次计算代价时)。尽管存在线性计算代价作样本数目的函数,样本复杂度仍更高。就我们所知,生成领域尚未应用GMMNs。6. 结论
介绍WGAN,可替换传统GAN的训练。新模型中,提高了学习的稳定性,克服了模式被破坏等问题,并提供方便调试和超参数搜索的学习曲线。进一步,显示对应的优化问题合理,并为分布间其它距离的深入关联提供理论工作。
全文未经他人校正,如有问题欢迎指出。
7. 小记
并不是数学出身,但后面的证明还是看了。考虑到最近贼忙以及附录部分的编辑量,所以先忘了它吧… 但附录部分如有问题欢迎讨论。嗯,共同进步… ٩(๑òωó๑)۶