熵,交叉熵,相对熵(KL散度)

本文深入浅出地介绍了信息论的基本概念,探讨了信息的不确定性与信息量的度量,详细阐述了熵作为信息量期望值的本质,以及交叉熵、相对熵(KL散度)在衡量概率分布差异中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考:https://blog.youkuaiyun.com/zhuiyuanzhongjia/article/details/80576165

           https://wk.baidu.com/view/e93db92b25c52cc58bd6be87/

一、什么是信息?

1. 香农对信息的解释:信息是事物运动状态或存在方式的不确定性的描述。

2. 何为信息?什么能提供信息? 我将你原来不知道的结果告诉你,就是提供了信息。

3. 如何衡量信息量的大小? 事件发生的概率越小,此事件含有的信息量就越大。 

   我向你提供的信息量大小,就是你事先不知道结果的程度!也即是信息的不确定度。如果你事先全知道了,说明我提供的信息量等于0;如果你事先一无所知,说明我提供的信息量最多。

  不知道意味着在我告诉你之前你只能进行猜测,猜测就是按照每个可能结果的出现概率进行猜测!因此你只知道这个事件的每个结果的发生概率! 所以,我提供的信息量就是由你事先知道的每个可能结果的发生概率(即随机事件的概率分布)决定。

二、的本质是香农信息量(-log P)的期望。

现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为:H(p)=-\sum_{i}p(i)*\log p(i)。如果使用错误分布q来表示来自真实分布p的平均编码长度,则应该是:H(p,q)=-\sum_{i}p(i)*\log q(i)。因为用q来编码的样本来自分布p,所以期望H(p,q)中概率是p(i)。H(p,q)我们称之为“交叉熵”。

比如含有4个字母(A,B,C,D)的数据集中,真实分布p=(1/2, 1/2, 0, 0),即A和B出现的概率均为1/2,C和D出现的概率都为0。计算H(p)为1,即只需要1位编码即可识别A和B。如果使用分布Q=(1/4, 1/4, 1/4, 1/4)来编码则得到H(p,q)=2,即需要2位编码来识别A和B(当然还有C和D,尽管C和D并不会出现,因为真实分布p中C和D出现的概率为0,这里就钦定概率为0的事件不会发生啦)。

可以看到上例中根据非真实分布q得到的平均编码长度H(p,q)大于根据真实分布p得到的平均编码长度H(p)。事实上,根据Gibbs' inequality可知,H(p,q)>=H(p)恒成立,当q为真实分布p时取等号。我们将由q得到的平均编码长度比由p得到的平均编码长度多出的bit数称为“相对熵”:D(p||q)=H(p,q)-H(p)=-\sum_{i}p(i)*\log \frac{q(i) }{p(i)},其又被称为KL散度(Kullback–Leibler divergence,KLD) Kullback–Leibler divergence。它表示2个函数或概率分布的差异性:差异越大则相对熵越大,差异越小则相对熵越小,特别地,若2者相同则熵为0。注意,KL散度的非对称性。

个人理解为,熵可以定性描述为信息量的期望,也可以定量描述为所需编码长度的期望。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值