信息熵、条件熵、信息增益

本文介绍了信息熵作为衡量离散随机变量不确定性的指标,详细阐述了信息熵、信息量的定义和公式,并探讨了条件熵在给定随机变量X条件下,Y的不确定性。接着解释了信息增益的概念,它是ID3决策树选择划分属性的依据。通过一个西瓜样本的例子,展示了如何计算这些概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

信息熵

信息熵是度量离散随机变量的不确定性的指标。不确定性越大,信息熵的值越大。公式如下: H ( X ) = − ∑ i = 1 n p ( x i ) log ⁡ 2 p ( x i ) H(X)=-\sum_{i=1}^n p(x_i) \log_2 p(x_i) H(X)=i=1np(xi)log2p(xi)其中:𝑝(𝑥𝑖)代表随机事件𝑥𝑖的概率。

单看公式太抽象,下面逐步介绍信息熵的来源:

信息量

信息量:是对信息的度量。对于一个随机变量,如何衡量随机变量的具体值(也就是事件发生)带来的信息量呢?

信息量衡量事件发生带来的信息量,因此与事件发生的概率大小有关。一般越不可能发生的事件发生了带来的信息量越大,也就是说,概率越小的事件带来的信息量越大。比如一月飞雪带来的信息量很小,因为冬天下雪不是很正常嘛,不足为奇。而六月飞雪带来的信息量很大,毕竟夏天怎么会下雪呢。

因此一个事件的信息量是随着事件发生的概率递减的,且不能为负。那么如何用数学公式表示信息量和概率之间的关系呢?毕竟满足随着概率递减的函数如此多。

信息量公式

对于两个不相关的事件,同时发生带来的信息量应满足如下公式: h ( x + y ) = h ( x ) + h ( y ) h(x+y)=h(x)+h(y) h(x+y)=h(x)+h(y)由于两个事件不相关,则概率满足公式: p ( x , y ) = p ( x ) p ( y ) p(x,y)=p(x)p(y) p(x,y)=p(x)p(y)根据上面两个式子,我们可以发现信息量一定和概率的对数有关,才能使信息量的加法转换为概率的乘法。因此信息量公式如下: h ( x ) = − log ⁡ 2 p ( x ) h(x)=-\log_2p(x) h(x)=log2p(x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值