GAN的理论基础之KL散度与JS散度

最新推荐文章于 2025-05-17 16:27:05 发布

yuan学习之路

最新推荐文章于 2025-05-17 16:27:05 发布

阅读量5k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签： KL散度信息熵 JS散度交叉熵 GAN

本文链接：https://blog.youkuaiyun.com/yuanfang_hai/article/details/86604807

本文介绍了信息熵、交叉熵的基础，并详细探讨了在生成对抗网络（GAN）中重要的KL散度和JS散度。KL散度衡量了概率分布q对p的拟合程度，而JS散度解决了KL散度不对称的问题，用于比较不同分布的差异。在GANs中，这些概念用于评估生成器对真实数据分布的匹配程度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在介绍KL散度和JS散度之前，我们需要了解什么是信息熵，什么是交叉熵。

香农信息量、信息熵

香农信息量用于刻画消除随机变量X在x处的不确定性所需的信息量的大小

当对数的底数为2时，香农信息量的单位为比特

香农信息量描述的是随机变量在某一点处的信息量，而衡量随机变量在整个样本空间的信息量，就需要用随机变量X的信息熵，可以将信息熵理解为是香农信息量的数学期望，即P(x)加权求和，因此可以将信息熵理解为消除随机变量不确定性所需的总体信息量的大小，熵越大，随机变量的不确定性就越大，数学定义如下：

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yuan学习之路

关注关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

GAN学习笔记——KL散度、交叉熵、JS散度

程序媛的自学笔记

04-12

3373

首先，我们知道，熵是用来量化数据中含有的信息量的，其计算公式为： H=−∑i=1Np(xi)⋅log⁡p(xi)H=-\sum_{i=1}^{N}p(x_{i})\cdot \log p(x_{i})H=−i=1∑Np(xi)⋅logp(xi) 1）KL散度（Kullback–Leibler divergence）又称KL距离，相对熵，用来比较两个概率分布的接近程度。假设 p(x)...

GAN学习笔记-KL散度(Kullback-Leibler Divergence)、JS散度(Jensen–Shannon divergence)、Wasserstein Distance

ssshyeong的博客

06-07

2578

本篇文章主要介绍了KL散度(Kullback-Leibler Divergence)、JS散度(Jensen–Shannon divergence)、Wasserstein Distance

参与评论您还未登录，请先登录后发表或查看评论

KL散度 (Kullback-Leibler Divergence)

最新发布

frostmelody 全网同名，大家多多关注呀~ 持续分享优质内容！

05-17

921

在AI和机器学习中，它不仅是理论分析的基础，也是许多算法设计（如变分自编码器VAE、策略优化RL算法如TRPO、PPO等）中的关键组成部分，用于度量信息损失、约束模型行为或指导模型学习。在RLHF中，它扮演了稳定器和安全阀的角色，确保在通过强化学习优化模型以符合人类偏好时，模型不会偏离其已学到的有用知识太远。KL散度，也称为相对熵 (Relative Entropy)，是信息论中一个核心概念，用于衡量两个概率分布之间的差异。，则KL散度为无穷大，意味着如果。的一部分（或者更准确地说，是。

KL散度的理解（GAN网络的优化）

aicuo0859的博客

07-10

1073

原文地址Count Bayesie 这篇文章是博客Count Bayesie上的文章Kullback-Leibler Divergence Explained 的学习笔记，原文对 KL散度的概念诠释得非常清晰易懂，建议阅读相对熵，又称KL散度( Kullback–Leibler divergence)，是描述两个概率分布P和Q差异的一种方法。它是非对称的，...

生成对抗网络（GANs）系列：KL散度和JS散度

nbxzkok的专栏

09-29

8404

1.香农信息量、信息熵和交叉熵 只考虑连续型随机变量的情况。设p为随机变量X的概率分布，即p(x)为随机变量X在X=x处的概率密度函数值，随机变量X在x处的香农信息量定义为：其中对数以2为底，这时香农信息量的单位为比特。香农信息量用于刻画消除随机变量X在x处的不确定性所需的信息量的大小。如随机事件“中国足球进不了世界杯”不需要多少信息量（比如要不要多观察几场球赛的表现）就可以消除不确定性...

GAN的理论浅析（极大似然概率和KL散度）

weixin_39588448的博客

02-23

1062

GAN有两大部分组成，一个是Generator，一个是Discriminator组成，Generator用于生成数据，Disrciminator用于鉴别生成数据的好坏。我们希望GAN找到一个数据集的真实概率分布那么什么是数据集的真实概率分布，好比兔子生活在树林里，当兔子只有一只的时候，它可能在树林的任何一个地方生活，当这只兔子繁衍足够多的兔子时候，这一个兔子家庭会倾向与在森林的一个固定...

GAN损失函数和JS散度的关系

Miclear的博客

07-11

1089

判别器是要给生成图像低分，给真是的图像高分，带入到上面式子中，第一项中f给生成的图像低分，会让第一项更小，第二项中f给真实图像打高分，这也让第二项更小。在GAN的优化过程中，判别器的优化目标可以被理解为在最小化JS 散度的过程中，使得判别器能够有效地区分真实数据分布 ( P_data ) 和生成数据分布 ( P_G )，从而推动生成器生成更真实的数据样本。这里也是加了负号的，上面说到，要把判别器损失函数最大化，加了负号后，就是最小化问题了，这是符合对损失函数的理解的。zj：正态分布中随机生成的数据。

KL散度（Kullback-Leibler Divergence）

Rhett_Butler0922的博客

04-25

1251

对于两个概率分布PxP(x)Px和QxQ(x)Qx，定义在相同的样本空间XX离散分布DKLP∣∣Q∑x∈XPxlog⁡PxQxDKLP∣∣Q∑x∈XPxlogQxPx连续分布DKLP∣∣Q∫XPxlog⁡PxQxdxDKLP∣∣Q∫XPxlogQxPxdxPxP(x)Px是真实分布（或目标分布）。Qx。

GAN和VAEs关于KL散度的比较

weixin_43698821的博客

12-01

1313

Gan的优化目标是达到纳什均衡（为了使损失函数达到最优，生成器与判别器均不会单独改变而是互相对抗），从而尽可能准确的恢复P(data), variational autoEncoder方法通常能够获得很好的似然，但生成低质量的样本。GAN能生成更好的样本，但跟FVBNs,VAEs比起来,更难优化。 GAN能生成更真实的样本是因为GAN最小化Jensen-Shannon divergence，而...

GAN里面的KL散度和极大似然关系

Xunuo1995的博客

09-16

410

希望找到一个数据集的真实概率分布现在，并不知道这个分布P_{data}(x)的数学式子是什么样的，但是可以从这个分布中采样，当收集到一组高质量的图片作为数据集的时候就是从这个真实的分布中采样。其实也就是极大似然估计啊~ 于是现在有了一笔从P_{data}(x)中采样的数据然后，希望通过神经网络生成一个概率分布 Pdata(x; theta），theta就是参数，有可能是任何一种分布，使得这个概率分布和真实的概率分布Pdata(x）越接近越好，具体该怎么做呢？具体做法就是求概率分布 Pdata(x;

GAN中的散度和距离

m0_37531129的博客

05-19

1302

KL散度（相对熵）可以用来衡量两个概率分布之间的差异，又称为相对熵，和信息熵。概率分布P1和P2的KL散度： KL(P1∣∣P2)=Ex p1log(p1p2)=∫xp1(x)log(p1(x)p2(x))dxKL(P1||P2) = E_{x~p1} log( \frac{p1}{p2}) = \int_x p1(x) log(\frac{p1(x)}{p2(x)})dxKL(P1∣∣P2)=Ex p1log(p2p1)=∫xp1(x)log(p2(x)p1(x))dx 缺

标准GAN的公式推导

12-10

里面包含了对抗生成网络的提出，推导和部分实验，从数学理论的角度出发从KL散度到JS散度再到目标网络的公式推导。

【深度学习】生成式对抗网络（GAN）的常见评价指标：IS/FID/JS散度

无极阁

05-18

5523

生成式对抗网络的目标是生成高质量且多样性的样本，而一般的loss对其衡量能力有限，也无法像分类问题这种监督学习一样通过准确率等指标衡量。因此需要一些特定的方式对其进行衡量，本文主要介绍场景的几种衡量方式，即IS、FID与JS散度，能够从不同角度对GAN的效果进行衡量。

KL散度（Kullback-Leibler divergence）、交叉熵（cross entropy）以及GAN（Generative Adversarial Network）损失之间的关系

u013600306的博客

09-02

1246

假设P是真实分布，Q是预测分布。

在GAN中使用JS散度评估的问题

Forlogenの解忧杂货铺

03-31

2608

在Martin Arjovsky, Léon Bottou, Towards Principled Methods for Training Generative Adversarial Networks, 2017, arXiv preprint这篇论文中，作者发现在选择不同的epoch时，随着迭代次数的增加，它们的交叉熵都会减小到一个很低的值，同时准确度也都会到达1.0 但是通过JS散度来直...

GAN网络：JS散度与Wasserstein距离

冷月无声的博客

04-01

2764

目录 1 生成模型与判别模型的区别 2 各种距离&散度的度量 2.1 香农熵 2.2 信息熵 2.3 交叉熵 2.4 KL散度（相对熵） 2.5 JS散度 2.6 Wasserstein距离 1 生成模型与判别模型的区别生成模型：对数据的联合分布建模，从统计角度表示数据分布与数据生成方式，收敛速度快常见生成模型有：隐马尔可夫模型HMM、朴素贝叶斯模型、高斯...

KL散度及Python实现

热门推荐

RUC_Lee的博客

12-09

1万+

KL散度及Python实现1 KL散度1.1 定义1.2 公式1.3 几个结论1.4 应用1.4.1 应用1：机器学习领域1.4.2 应用2：用户画像2 Python实现求解2.1 生成分布2.2 计算方法12.3 计算方法23 参考 1 KL散度在很多场合，经常会遇到KL散度这个概念，那么它到底是什么含义呢？如何定义的？又有哪些应用场景？最后如何用Python进行计算呢？ 1.1 定义 KL散度（Kullback-Leibler divergence，简称KLD）: 在信息系统中称为相对熵（relat

GAN（对抗生成网络）原理及数学推导

QIzikk的博客

02-23

4459

本文主要涉及GAN网络的直观理解和其背后的数学原理。参考课程：计算机视觉与深度学习北京邮电大学鲁鹏概述在所有生成模型中，GAN属于 “密度函数未知，直接硬train” 的那一类，和密度函数可定义的PixelRNN/CNN以及变分自编码器VAE有本质区别。假设现在我们想做人脸的生成任务。我们希望能找到人脸图像的真实分布，这样直接在这个分布上随便取点，得到的都是人脸的图像。但是分布非常复杂，且无法知道。所以，我们考虑用一个简单的分布和一个映射，将这个简单的分布映射到真实的分布。我们使用神经网

为什么在GAN中使用KL散度会出现模式坍缩的问题？

Forlogenの解忧杂货铺

04-27

3476

李宏毅老师GAN的课程中曾经对于这个问题有一个直观的解释，大体上可以参考以下的简单理解 https://blog.youkuaiyun.com/Forlogen/article/details/88921247 那么具体在数学上如何理解这个问题的产生呢？在Goodfellow提出的GAN的原始论文中指出，当生成器和判别器的能力足够强的时候，一定可以收敛到纳什均衡点，此时得到的最优的判别器D∗D^*D∗为 ...

Wasserstein距离相比传统GAN的KL散度有哪些优势？

04-02

<think>嗯，用户问的是Wasserstein距离相比传统GAN中的KL散度有哪些优势。我需要先回忆一下GAN的基本知识。传统的GAN使用的是JS散度（Jensen-Shannon divergence），而WGAN用的是Wasserstein距离。那为什么会有这种改变呢？首先，传统GAN的问题可能在于梯度消失。当生成分布和真实分布没有重叠或者重叠很少时，JS散度会饱和，导致梯度接近于零，这样生成器无法有效更新。而Wasserstein距离即使在分布不重叠的情况下也能提供有效的梯度，这应该是一个主要优势。其次，Wasserstein距离衡量的是两个分布之间的“距离”，而不是单纯的相似度。KL散度和JS散度都是概率分布的差异度量，但Wasserstein考虑了分布之间的几何结构，比如在移动概率质量时的成本，这可能使得训练更稳定。另外，训练过程中的指标问题。传统GAN的判别器输出经过sigmoid，得到的是概率，而Wasserstein的判别器（或者说Critic）输出的是一个实数，这可以更直接地反映分布之间的距离，从而提供更有意义的训练信号。还有，Wasserstein距离的平滑性可能有助于模式覆盖。传统GAN容易导致模式崩溃，生成器可能只生成有限的几种样本，而Wasserstein距离可能鼓励生成分布覆盖更多的真实分布模式，因为它在计算时考虑的是最优运输成本，而不是单纯的差异。需要确认这些点是否正确。例如，JS散度的问题确实在原始论文中被指出，当两个分布没有交集时，JS散度是常数，导致梯度为零。而Wasserstein在这种情况下仍然能给出有意义的梯度。因此，Wasserstein GAN在训练稳定性和避免模式崩溃上有优势。然后，在解释的时候要分点说明优势，比如解决梯度消失、提供更平滑的梯度、评估指标更合理等。还要提到WGAN的改进，比如权重裁剪或者梯度惩罚来满足Lipschitz约束。可能还需要比较KL散度和Wasserstein的不同。KL散度不对称，而且当生成分布有零而真实分布非零时，KL会趋向无穷大，导致训练不稳定。而Wasserstein距离没有这样的问题，因为它基于最优运输理论，考虑的是分布间的“移动”成本，而不是严格的概率匹配。最后，总结一下Wasserstein距离的优势，并确保回答结构清晰，分点说明，然后给出相关的问题，比如WGAN的实现、Lipschitz约束的处理方法等。</think><< Wasserstein距离（Earth-Mover距离）相比传统GAN中使用的KL散度（Kullback-Leibler divergence）具有以下核心优势： 1. **解决梯度消失问题** 传统GAN在训练时可能出现梯度消失，尤其是在生成分布与真实分布无重叠时。KL散度和JS散度在此情况下会饱和（值为常数），导致梯度接近于零。而Wasserstein距离即使分布不重叠时仍能提供有意义的梯度，确保训练稳定。 2. **更合理的距离度量** Wasserstein距离直接衡量两个分布之间的"最小运输成本"，能反映分布之间的几何关系。而KL散度不对称且对分布微小变化不敏感（例如当生成分布覆盖真实分布但存在偏移时，KL可能极大）。 3. **缓解模式崩溃（Mode Collapse）** 传统GAN容易因KL/JS散度的缺陷导致生成器仅覆盖部分真实数据模式。Wasserstein距离通过平滑的梯度引导生成器更全面地覆盖真实分布。 4. **训练过程可解释性** Wasserstein距离的值与生成质量呈负相关（值越小生成质量越高），可直接作为训练指标。而传统GAN的判别器输出概率无法直接反映生成质量。 **代码示例（WGAN-GP实现片段）** ```python # WGAN-GP的Critic（判别器）需满足Lipschitz约束，使用梯度惩罚 def gradient_penalty(critic, real, fake, device): batch_size = real.size(0) epsilon = torch.rand(batch_size, 1, 1, 1).to(device) interpolates = (epsilon * real + (1 - epsilon) * fake).requires_grad_(True) critic_interpolates = critic(interpolates) gradients = torch.autograd.grad( outputs=critic_interpolates, inputs=interpolates, grad_outputs=torch.ones_like(critic_interpolates), create_graph=True, retain_graph=True )[0] gradients = gradients.view(gradients.size(0), -1) gradient_penalty = ((gradients.norm(2, dim=1) - 1) ** 2).mean() return gradient_penalty ```