概率之信息论

本文探讨了信息论的核心概念,包括自信息、香农熵、微分熵、KL散度及交叉熵,阐述了这些度量如何量化不确定性与分布差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

信息论的基本想法是一个不太可能发生的事情发生了,具有更多的信息量。

自信息(self-information)定义为:

                                                                            I(x) = - logP(x)

以log表示自然对数,其底数为e,单位是奈特(nats)。底数为2的对数,单位是比特(bit)或者香农(shannons)。

自信息只处理单个的输出。可以使用香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化:

                                                            H(x) = \mathbb E_{x \sim P}[I(x)] = - \mathbb E_{x \sim P}[logP(x)]

香农熵也计作H(P)。换言之,一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。

当x是连续的,香农熵被称为微分熵(differential entropy)。

 

如果对于同一个随机变量x有两个单独的概率分布P(x)和Q(x),可以使用KL散度(Kullback-Leibler(KL) divergence)来衡量这两个分布的差异:

                                                     D_{KL}(P||Q) = \mathbb E_{x \sim P}[log \frac{P(x)}{Q(x)}] = \mathbb E_{x \sim P}[logP(x) - logQ(x)]

在离散型变量的情况下,KL散度衡量的是,当我们使用一种被设计成能够使得概率分布Q产生的消息的长度最小的编码,发送包含由概率分布P产生的符号的消息时,所需要的额外信息量。

KL散度是非负的。KL散度为0,当且仅当P和Q在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是"几乎处处"相同的。

 

一个和KL散度密切联系的量是交叉熵(cross-entropy),即

                                                                                 H(P,Q) = H(P) + D_{KL}(P || Q)

它和KL散度很像,但是缺少左边一项:

                                                                                      H(P,Q) = - \mathbb E_{x \sim P} logQ(x)

针对Q最小化交叉熵等价于最小化KL散度,因为Q并不参与被省略的那一项。

note:lim_{x \to 0} xlogx = 0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值