KL散度与交叉熵的区别

最新推荐文章于 2025-12-03 15:25:54 发布

原创最新推荐文章于 2025-12-03 15:25:54 发布 · 336 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #开发语言 #学习 #矩阵

在这里插入图片描述
注：图片来源网络截图

KL散度与交叉熵的定义

KL散度（Kullback-Leibler Divergence）衡量两个概率分布 ( P ) 和 ( Q ) 之间的差异，定义为：
$D_{KL}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}$
交叉熵（Cross-Entropy）衡量用分布 ( Q ) 表示分布 ( P ) 所需的平均编码长度，定义为：
$-\sum_{x} P(x) \log Q(x)$

数学关系

KL散度可以分解为交叉熵与熵的差：
$D_{KL}(P \parallel Q) = H(P, Q) - H(P)$
其中 $-\sum_{x} P(x) \log P(x)$ 是分布 ( P ) 的熵。

性质差异

KL散度具有不对称性（ $D_{KL}(P \parallel Q) \neq D_{KL}(Q \parallel P)$ ，且非负 $D_{KL} \geq 0$ 。交叉熵不对称，且不满足非负性（当 $Q (x) > 1$ 时可能为负）。

应用场景

KL散度常用于模型比较、变分推断或强化学习中的策略差异度量。交叉熵广泛用于分类任务的损失函数，因其计算简便且与KL散度优化目标一致（因 ( H§ ) 是常数）。

计算特点

在机器学习中，最小化交叉熵等价于最小化KL散度（因 $H (P)$ 固定）。但交叉熵无需计算 $\log P(x)$ ，实际计算更高效。

总结

KL散度是分布差异的直接度量，交叉熵是编码效率的度量。两者在优化中常等价，但KL散度包含更多信息（如熵项），而交叉熵更易计算。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。