信息量, 信息熵, 交叉熵, KL散度

最新推荐文章于 2024-12-09 12:07:49 发布

原创最新推荐文章于 2024-12-09 12:07:49 发布 · 859 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #信息论与编码

机器学习专栏收录该内容

1 篇文章

订阅专栏

本文详细解释了信息论中的核心概念：信息量、信息熵、交叉熵和KL散度。阐述了这些概念的基本定义及其相互之间的关系，并说明了它们在机器学习中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

信息量, 信息熵, 交叉熵, KL散度

信息量

信息量字面意思理解就是一个事件包含信息的多少. 如果一个事件x发生的概率 ( p(x) ) 越高, 那其实它包含的信息量越少, 反而一个发生概率很小的事件包含的信息量越高. 也就是说信息量与发生的概率成反比. 此外, 考虑到在计算机存储时是按照bit来存储, 所以还会取对数 (我对为什么取对数这一块理解也不是很深刻…), 总结起来就是:

I (x) = log 1 p ( x ) = - log p (x)

$I(x)=\log \dfrac{1}{p(x)}=-\log p(x)$
由于计算机存储时是二进制存储, 所以有些地方一般去对数的底为2. 当然底为多少只是相当于scale了一下, 不影响相对性.

信息熵

信息熵其实就是信息量的均值, 这里我们假设x的取值范围是 $\{x_{1}, x_2, \cdots, x_n\}$ , 那么信息熵为

H (p) = \sum i p (x i) I (x i) = - \sum i p (x i) log p (x i)

$H(p)=\sum_{i} p(x_i)I(x_i) = -\sum_i p(x_i) \log p(x_i)$
显然当x的分布比较均匀时, 信息熵最大. 这跟物理学里面熵的概念比较吻合.

交叉熵 (cross-entropy)

交叉熵衡量了用概率分布p去估计概率分布q所包含的平均信息量, 也就是:

H (p, q) = \sum i q (x i) I (x i) = - \sum i q (x i) log p (x i)

$H(p, q)=\sum_{i} q(x_i)I(x_i) = -\sum_i q(x_i) \log p(x_i)$
从另一个角度看, 当p, q相等时, 交叉熵就等于信息熵, 此时交叉熵最小. 所以在机器学习中, 交叉熵被用来做loss去衡量分类结果与真值的相似程度.

KL散度

KL散度/距离是衡量两个分布的距离:

D (p | | q) = \sum i q (x i) log q ( x i ) p ( x i )

$D(p|| q)=\sum_i q(x_i) \log \frac{q(x_i)}{p(x_i)}$
简单分解可以知道

H (p, q) = D (p | | q) + H (q)

$H(p, q) = D(p||q)+H(q)$
即交叉熵等于信息熵与KL散度的和.
在机器学习中, 优化交叉熵与优化KL散度是一样的效果, 因为q是已知的真值的分布, 所以

H(q) $H(q)$ 是定值.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。