一、什么是KL散度?
KL散度(Kullback-Leibler Divergence),也称为相对熵(Relative Entropy),是一种用于衡量两个概率分布之间差异的非对称度量。简单来说,它描述了一个概率分布 PPP 和另一个概率分布 QQQ 有多“不同”。KL散度并不是一个真正的距离(distance),因为它不满足对称性和三角不等式,但它在信息论和机器学习中有广泛应用。
1.1 定义
对于两个概率分布 P(x)P(x)P(x) 和 Q(x)Q(x)Q(x),定义在相同的样本空间 X\mathcal{X}X 上,KL散度的公式如下:
-
离散分布:
DKL(P∣∣Q)=∑x∈XP(x)log(P(x)Q(x))D_{KL}(P || Q) = \sum_{x \in \mathcal{X}} P(x) \log \left( \frac{P(x)}{Q(x)} \right)DKL(P∣∣Q)=∑x∈XP(x)log(Q(x)P(x)) -
连续分布:
DKL(P∣∣Q)=∫XP(x)log(P(x)Q(x))dxD_{KL}(P || Q) = \int_{\mathcal{X}} P(x) \log \left( \frac{P(x)}{Q(x)} \right) dxDKL(P∣∣Q)=∫XP(x)log(Q(x)P(x))dx
其中:
- P(x)P(x)P(x) 是真实分布(或目标分布)。
- Q(x)Q(x)Q(x) 是近似分布(或模型分布)。
- log\loglog 通常是以自然对数(底为 eee)计算,但在某些情况下也可能使用以2为底的对数(信息论中常见)。
1.2 直观理解
KL散度可以理解为:如果我们用分布 QQQ 来近似分布 PPP,需要付出多少“额外的信息代价”。换句话说,KL散度量化了在用 QQQ 编码由 PPP 产生的数据时,相比于直接用 PPP 编码所增加的信息量(以比特或纳特为单位)。
- 如果 PPP 和 QQQ 完全相同,则 DKL(P∣∣Q)=0D_{KL}(P || Q) = 0DKL(P∣∣Q)=0。
- 如果 PPP 和 QQQ 差异很大,KL散度会是一个较大的正值。
- KL散度是非负的:DKL(P∣∣Q)≥0D_{KL}(P || Q) \geq 0DKL(P∣∣Q)≥0,这是由吉布斯不等式(Gibbs’ Inequality)保证的。
1.3 非对称性
KL散度不是对称的,即:
DKL(P∣∣Q)≠DKL(Q∣∣P)D_{KL}(P || Q) \neq D_{KL}(Q || P)DKL(P∣∣Q)=DKL(Q∣∣P)
这意味着用 QQQ 近似 PPP 的代价和用 PPP 近似 QQQ 的代价不同。这种非对称性在实际应用中会有不同的效果(例如在变分推断中选择不同的优化方向)。
二、KL散度的数学推导与性质
为了深入理解KL散度,我们需要从数学和信息论的角度进一步探讨它的来源和性质。
2.1 从信息论的角度
KL散度与信息论中的熵(Entropy)和交叉熵(Cross-Entropy)密切相关。我们可以通过这些概念来推导KL散度。
(1)熵(Entropy)
熵是衡量一个概率分布不确定性的指标。对于离散分布 P(x)P(x)P(x),熵定义为:
H(P)=−∑xP(x)logP(x)H(P) = - \sum_{x} P(x) \log P(x)H(P)=−∑xP(x)logP(x)
熵表示用 PPP 本身编码数据所需的平均信息量(以比特为单位,如果使用以2为底的对数)。
(2)交叉熵(Cross-Entropy)
交叉熵衡量使用分布 QQQ 来编码由分布 PPP 产生的数据所需的平均信息量:
H(P,Q)=−∑xP(x)logQ(x)H(P, Q) = - \sum_{x} P(x) \log Q(x)H(P,Q)=−∑xP(x)logQ(x)
(3)KL散度的推导
KL散度可以表示为交叉熵与熵之差:
DKL(P∣∣Q)=H(P,Q)−H(P)D_{KL}(P || Q) = H(P, Q) - H(P)D

最低0.47元/天 解锁文章
1146

被折叠的 条评论
为什么被折叠?



