传统的Gan存在的问题
传统的判别器损失
m a x D V ( D , G ) = E x ∼ P r ( x ) [ l o g D ( x ) ] + E z ∼ P g ( x ) [ l o g ( 1 − D ( x ) ) ] ( 1 ) \hspace{2em}\mathop{max}\limits_{D}\space V(D,G) = \mathbb{E}_{x\sim P_{r}(x)}[log\space D(x)] + \mathbb{E}_{z \sim P_g \space (x)}[log(1-D(x))] \hspace{4em}(1) Dmax V(D,G)=Ex∼Pr(x)[log D(x)]+Ez∼Pg (x)[log(1−D(x))](1)
设判别器的输入数据 x x x 来源于真实数据分布的概率为 P r ( x ) P_r(x) Pr(x) ,来源于生成数据分布的概率为 P g ( x ) P_g(x) Pg(x)
则判别器损失可以表示为:
D L o s s = − [ P r ( x ) l o g D ( x ) + P g ( x ) l o g ( 1 − D ( x ) ) ] ( 2 ) \hspace{4em}D_{Loss} = -[P_r(x)\space logD(x)+P_g(x)\space log(1-D(x))]\hspace{7em}(2) DLoss=−[Pr(x) logD(x)+Pg(x) log(1−D(x))](2)
令 D ( x ) D(x) D(x)导数为0,化简可得:
D ( x ) = P r ( x ) P r ( x ) + P g ( x ) ( 3 ) \hspace{11em}D(x) = \frac{P_r(x)}{P_r(x)+P_g(x)}\hspace{11em}(3) D(x)=Pr(x)+Pg(x)Pr(x)(3)
当输入数据来自真实分布的概率 P r ( x ) P_r(x) Pr(x) 与来自生成数据分布的概率 P g ( x ) P_g(x) Pg(x)相同时,即 P r ( x ) = P g ( x ) P_r(x)=P_g(x) Pr(x)=Pg(x)
时,生成器生成的图片效果最好,真假难辨。将 (3) 式代入 (1) 式得:
E x ∼ P r ( x ) l o g P r ( x ) 1 2 [ P r ( x ) + P g ( x ) ] + E x ∼ P g ( x ) l o g P g ( x ) 1 2 [ P r ( x ) + P g ( x ) ] − 2 l o g 2 ( 4 ) \mathbb{E}_{x\sim P_r(x)}\space log\frac{P_r(x)}{\frac{1}{2}[P_r(x)+P_g(x)]}\space + \mathbb{E}_{x\sim P_g(x)}\space log\frac{P_g(x)}{\frac{1}{2}[P_r(x)+P_g(x)]}\space - 2log2 \hspace{2em}(4) Ex∼Pr(x) log21[Pr(x)+Pg(x)]Pr(x) +Ex∼Pg(x) log21[Pr(x)+Pg(x)]Pg(x) −2log2(4)
由 J S JS JS 散度 和 K L KL KL散度的公式:
D K L ( P 1 ∣ ∣ P 2 ) = ∑ P 1 l o g P 1 P 2 = E x ∼ P 1 l o g P 1 P 2 ( 5 ) D J S = 1 2 D K L ( P 1 ∣ ∣ P 1 + P 2 2 ) + 1 2 D K L ( P 2 ∣ ∣ P 1 + P 2 2 ) ( 6 ) \hspace{8em}D_{KL}(P_1||P_2) =\sum P_1\space log\frac{P_1}{P_2}= \mathbb{E}_{x\sim P_1}\space log\frac{P_1}{P_2}\hspace{5em}(5)\\ \hspace{5em} D_{JS} = \frac{1}{2}D_{KL}(P_1||\frac{P_1+P_2}{2})\space +\frac{1}{2}D_{KL}(P_2||\frac{P_1+P_2}{2})\hspace{5em}(6) DKL(P1∣∣P2)=∑P1 logP2P1=Ex∼P1

本文深入探讨了传统GAN在训练过程中遇到的梯度消失问题,原因是JS散度在分布无交集时失效。为解决这一问题,Wasserstein GAN(WGAN)引入Wasserstein距离作为衡量分布差异的指标,它能有效处理分布无交集的情况。WGAN通过确保判别器满足Lipschitz连续性条件,避免了梯度消失,其中谱归一化是一种有效的实现方法。文章还介绍了SVD分解和瑞利商在计算谱范数中的应用,以及如何通过谱范数保持参数矩阵的Lipschitz连续性。
最低0.47元/天 解锁文章
1270

被折叠的 条评论
为什么被折叠?



