信息增益与熵

1.信息熵

熵表示任何一种能量在空间中分布的均匀程度。能量分布得越均匀,熵就越大。后来香农将其引入到信息论中称为信息熵。信息熵在随机事件发生之前,它是结果不确定性的量度;在随机事件发生之后,它是人们从该事件中所得到信息量。

对于给定的概率分布clip_image002,则该分布传递的信息量即P的熵为

clip_image002[4]

熵的公式表明,概率分布越均匀,其所携带的信息量越大。

2.信息增益

首先给出信息增益的定义:
令X为随机变量,则X的信息熵定义为:clip_image002[6]

通过观测随机变量Y随机变量X的信息熵变为:clip_image002[8]

其中clip_image002[10]代表随机变量X的先验概率,clip_image004代表观测到随机变量Y后随机变量X的后验概率。

引入随机变量Y的信息后,随机变量X的信息熵clip_image006,即引入Y后,X的不确定程度会变小或保持不变。若Y与X不相关,则clip_image008;若Y与X相关,则clip_image010差值clip_image012越大, 对应Y与X的相关性越强

因此,定义信息增益clip_image014clip_image016clip_image018的差值,反映了Y与X的相关程度, clip_image014[1]越大,则变量Y与X的相关性越强。

clip_image020

而且,可以证明,信息增益具有对称性,即clip_image002[12]。另外,为了对信息增益进行归一化,可采用下式,同理有clip_image004[4]

clip_image006[4]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值