信息熵+互信息(信息增益)


交叉熵->信息熵->KL散度

信息增益

信息量

信息奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”,也就是说衡量信息量的大小就是看这个信息消除不确定性的程度。

“太阳从东边升起”,这条信息并没有减少不确定性,因为太阳肯定是从东边升起的,这是一句废话,信息量为0。

”2018年中国队成功进入世界杯“,从直觉上来看,这句话具有很大的信息量。因为中国队进入世界杯的不确定性因素很大,而这句话消除了进入世界杯的不确定性,所以按照定义,这句话的信息量很大。

根据上述可总结如下:信息量的大小与信息发生的概率成反比。概率越大,信息量越小。概率越小,信息量越大。

设某一事件发生的概率为P(x),其信息量表示为:
I ( x ) = − log ⁡ ( P ( x ) ) (1) \mathrm{I}(\mathrm{x})=-\log (\mathrm{P}(\mathrm{x}))\tag{1} I(x)=log(P(x))(1)
其中 I ( x ) \mathrm{I}(\mathrm{x}) I(x)表示信息量,这里 l o g ⁡ log ⁡ log表示以e为底的自然对数。

信息熵

信息熵也被称为熵,用来表示所有信息量的期望
期望是试验中每次可能结果的概率乘以其结果的总和。
所以信息量的熵可表示为:(这里的 X X X是一个离散型随机变量)
H ( X ) = − ∑ i = 1 n P ( x i ) log ⁡ ( P ( x i ) ) ( X = x 1 , x 2 , x 3 … , x n ) (2) \mathrm{H}(\mathbf{X})=-\sum_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right) \log \left(\mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right)\right)\quad\left(\mathbf{X}=\mathrm{x}_{1}, \mathrm{x}_{2}, \mathrm{x}_{3} \ldots, \mathrm{x}_{\mathrm{n}}\right)\tag{2} H(X)=i=1nP(xi)log(P(xi))(X=x1,x2,x3,xn)(2)

使用明天的天气概率来计算其信息熵:
在这里插入图片描述
H ( X ) = − ( 0.5 ∗ log ⁡ ( 0.5 ) + 0.2 ∗ log ⁡ ( 0.2 ) + 0.3 ∗ log ⁡ ( 0.3 ) ) (3) \mathrm{H}(\mathbf{X})=-(0.5 * \log (0.5)+0.2 * \log (0.2)+0.3 * \log (0.3))\tag{3} H(X)=(0.5log(0.5)+0.2log(0.2)+0.3log(0.3))(3)

对于0-1分布的问题,由于其结果只用两种情况,是或不是,设某一件事情发生的概率为 P ( x ) \mathrm{P}(\mathrm{x}) P(x),则另一件事情发生的概率为 1 − P ( x ) 1 - \mathrm{P}(\mathrm{x}) 1P(x),所以对于0-1分布的问题,计算熵的公式可以简化如下:

H ( X ) = − ∑ n = 1 n P ( x i log ⁡ ( P ( x i ) ) ) = − [ P ( x ) log ⁡ ( P ( x ) ) + ( 1 − P ( x ) ) log ⁡ ( 1 − P ( x ) ) ] = − P ( x ) log ⁡ ( P ( x ) ) − ( 1 − P ( x ) ) log ⁡ ( 1 − P ( x ) ) (4) \begin{array}{c} \mathrm{H}(\mathbf{X})=-\sum_{\mathrm{n}=1}^{\mathrm{n}} \mathrm{P}\left(\mathrm{x}_{\mathrm{i}} \log \left(\mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right)\right)\right) \\ =-[\mathrm{P}(\mathrm{x}) \log (\mathrm{P}(\mathrm{x}))+(1-\mathrm{P}(\mathrm{x})) \log (1-\mathrm{P}(\mathrm{x}))] \\ =-\mathrm{P}(\mathrm{x}) \log (\mathrm{P}(\mathrm{x}))-(1-\mathrm{P}(\mathrm{x})) \log (1-\mathrm{P}(\mathrm{x}))\tag{4} \end{array} H(X)=n=1nP(xilog(P(xi)))=[P(x)log(P(x))+(1P(x))log(1P(x))]=P(x)log(P(x))(1P(x))log(1P(x))(4)

给出熵和条件熵的定义。在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量。设 X X X 是一个取有限值的离散随机变量,其概率分布为:

P ( X = x i ) = p i , i = 1 , 2 , ⋯   , n (5) P(X=x_i)=p_i,\quad i=1,2,\cdots,n \tag{5} P(X=xi)=pi,i=1,2,,n(5)
则随机变量 X X X 的熵定义为:
H ( X ) = − ∑ i = 1 n p i log ⁡ p i (6) H(X)=-\sum_{i=1}^np_i \log p_i \tag{6} H(X)=i=1npilogpi(6)
在公式2,若 p i = 0 p_i=0 p

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值