一、概念
KL 散度(Kullback-Leibler Divergence,又称相对熵)是衡量两个概率分布之间 “不相似程度” 的指标。它在信息论、统计学和机器学习中广泛应用,核心作用是量化 “用一个分布近似另一个分布时的信息损失”,其值越大,两个分布差异越大。
二、原理
KL散度的定义基于熵和交叉熵,公式为:
其中,p是真实概率分布,比如样本的真实标签分布;q是近似概率分布,比如模型预测的分布;H(p)是真实分布p的熵,用来衡量p的不确定性;H(p, q)是p和q的交叉熵,衡量用q近似p的代价。结合熵和交叉熵的展开式,对于离散型随机变量,有:
代入KL散度公式可得:
这一形式可以更直观地展现KL散度是“真实分布p下,p与q的对数比值的加权和”,权重则为p(x)。此外,还需要注意的是KL散度不满足对称性。
三、示例
这里我们假设有两个伯努利分布,模拟二分类场景。其中p为真实分布,q为预测分布,有:
则二者之间的KL散度为:
四、应用场景
KL 散度是许多算法的核心基础,典型应用包括:
- 生成模型:如 GAN(生成对抗网络)中,用 KL 散度衡量生成数据分布与真实数据分布的差异;
- 变分推断:如 VAE(变分自编码器)中,用 KL 散度约束模型的潜在分布接近标准正态分布;
- 模型优化:由于
,且当H(p)是常数(真实分布固定)时,“最小化 KL 散度” 等价于 “最小化交叉熵”,这就解释了为什么分类任务常用交叉熵作为损失函数。
985

被折叠的 条评论
为什么被折叠?



