KL散度(Kullback-Leibler Divergence)

一、什么是KL散度?

KL散度(Kullback-Leibler Divergence),也称为相对熵(Relative Entropy),是一种用于衡量两个概率分布之间差异的非对称度量。简单来说,它描述了一个概率分布 PPP 和另一个概率分布 QQQ 有多“不同”。KL散度并不是一个真正的距离(distance),因为它不满足对称性和三角不等式,但它在信息论和机器学习中有广泛应用。

1.1 定义

对于两个概率分布 P(x)P(x)P(x)Q(x)Q(x)Q(x),定义在相同的样本空间 X\mathcal{X}X 上,KL散度的公式如下:

  • 离散分布
    DKL(P∣∣Q)=∑x∈XP(x)log⁡(P(x)Q(x))D_{KL}(P || Q) = \sum_{x \in \mathcal{X}} P(x) \log \left( \frac{P(x)}{Q(x)} \right)DKL(P∣∣Q)=xXP(x)log(Q(x)P(x))

  • 连续分布
    DKL(P∣∣Q)=∫XP(x)log⁡(P(x)Q(x))dxD_{KL}(P || Q) = \int_{\mathcal{X}} P(x) \log \left( \frac{P(x)}{Q(x)} \right) dxDKL(P∣∣Q)=XP(x)log(Q(x)P(x))dx

其中:

  • P(x)P(x)P(x) 是真实分布(或目标分布)。
  • Q(x)Q(x)Q(x) 是近似分布(或模型分布)。
  • log⁡\loglog 通常是以自然对数(底为 eee)计算,但在某些情况下也可能使用以2为底的对数(信息论中常见)。

1.2 直观理解

KL散度可以理解为:如果我们用分布 QQQ 来近似分布 PPP,需要付出多少“额外的信息代价”。换句话说,KL散度量化了在用 QQQ 编码由 PPP 产生的数据时,相比于直接用 PPP 编码所增加的信息量(以比特或纳特为单位)。

  • 如果 PPPQQQ 完全相同,则 DKL(P∣∣Q)=0D_{KL}(P || Q) = 0DKL(P∣∣Q)=0
  • 如果 PPPQQQ 差异很大,KL散度会是一个较大的正值。
  • KL散度是非负的:DKL(P∣∣Q)≥0D_{KL}(P || Q) \geq 0DKL(P∣∣Q)0,这是由吉布斯不等式(Gibbs’ Inequality)保证的。

1.3 非对称性

KL散度不是对称的,即:
DKL(P∣∣Q)≠DKL(Q∣∣P)D_{KL}(P || Q) \neq D_{KL}(Q || P)DKL(P∣∣Q)=DKL(Q∣∣P)

这意味着用 QQQ 近似 PPP 的代价和用 PPP 近似 QQQ 的代价不同。这种非对称性在实际应用中会有不同的效果(例如在变分推断中选择不同的优化方向)。


二、KL散度的数学推导与性质

为了深入理解KL散度,我们需要从数学和信息论的角度进一步探讨它的来源和性质。

2.1 从信息论的角度

KL散度与信息论中的熵(Entropy)和交叉熵(Cross-Entropy)密切相关。我们可以通过这些概念来推导KL散度。

(1)熵(Entropy)

熵是衡量一个概率分布不确定性的指标。对于离散分布 P(x)P(x)P(x),熵定义为:
H(P)=−∑xP(x)log⁡P(x)H(P) = - \sum_{x} P(x) \log P(x)H(P)=xP(x)logP(x)

熵表示用 PPP 本身编码数据所需的平均信息量(以比特为单位,如果使用以2为底的对数)。

(2)交叉熵(Cross-Entropy)

交叉熵衡量使用分布 QQQ 来编码由分布 PPP 产生的数据所需的平均信息量:
H(P,Q)=−∑xP(x)log⁡Q(x)H(P, Q) = - \sum_{x} P(x) \log Q(x)H(P,Q)=xP(x)logQ(x)

(3)KL散度的推导

KL散度可以表示为交叉熵与熵之差:
DKL(P∣∣Q)=H(P,Q)−H(P)D_{KL}(P || Q) = H(P, Q) - H(P)D

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱看烟花的码农

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值