KL散度、JS散度、Wasserstein距离

最新推荐文章于 2025-04-25 01:23:43 发布

木盏

最新推荐文章于 2025-04-25 01:23:43 发布

阅读量4.1w

点赞数 46

分类专栏： AI数学

AI数学专栏收录该内容

68 篇文章

订阅专栏

本文介绍了三种用于衡量概率分布差异的方法：KL散度、JS散度及Wasserstein距离。KL散度是一种非对称性度量，而JS散度改进了这一特性，Wasserstein距离则能在分布支撑集不重叠时仍有效度量差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. KL散度

$KL$ 散度又称为相对熵，信息散度，信息增益。 $KL$ 散度是是两个概率分布P和Q 差别的非对称性的度量。 $KL$ 散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。典型情况下，P表示数据的真实分布，Q表示数据的理论分布，模型分布，或P的近似分布。

定义如下：

D K L (P / / Q) = - \sum x \in X P (x) l o g 1 P ( x ) + \sum x \in X P (x) l o g 1 Q ( x )

$D_{KL} (P//Q)=-\sum_{x\in X} P(x)log {\frac{1}{P(x)}} + \sum_{x\in X} P(x)log {\frac{1}{Q(x)}}$
因为对数函数是凸函数，所以

KL K L $KL$ 散度的值为非负数。

有时会将 $KL$ 散度称为 $KL$ 距离，但它并不满足距离的性质：

1. KL散度不是对称的: $KL(A, B)$ $\neq$ $KL(B, A)$

2. KL散度不满足三角不等式: $KL(A, B)$ $>$ $KL(A, C) + KL(C, B)$

2. JS散度(Jensen-Shannon)

$JS$ 散度度量了两个概率分布的相似度，基于 $KL$ 散度的变体，解决了KL散度非对称的问题。一般地， $JS$ 散度是对称的，其取值是0到1之间。定义如下：

这里写图片描述

$KL$ 散度和 $JS$ 散度度量的时候有一个问题：

如果两个分配P,Q离得很远，完全没有重叠的时候，那么KL散度值是没有意义的，而JS散度值是一个常数。这在学习算法中是比较致命的，这就意味这这一点的梯度为0。梯度消失了。

3. Wasserstein距离

$Wasserstein$ 距离度量两个概率分布之间的距离，定义如下：
这里写图片描述
$\Pi (P_1,P_2)$ 是 $P_1$ 和 $P_2$ 分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布γ，可以从中采样 $(x,y)∼\gamma$ 得到一个样本x和y，并计算出这对样本的距离||x−y||，所以可以计算该联合分布 $\gamma$ 下，样本对距离的期望值 $E(x,y)∼γ[||x−y||]$ 。在所有可能的联合分布中能够对这个期望值取到的下界 $inf_\gamma$ ∼ $\Pi (P_1,P_2)$ E(x,y) $∼\gamma[||x−y||]$ 就是Wasserstein距离。