文章目录
交叉熵->信息熵->KL散度
信息增益
信息量
信息奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”,也就是说衡量信息量的大小就是看这个信息消除不确定性的程度。
“太阳从东边升起”,这条信息并没有减少不确定性,因为太阳肯定是从东边升起的,这是一句废话,信息量为0。
”2018年中国队成功进入世界杯“,从直觉上来看,这句话具有很大的信息量。因为中国队进入世界杯的不确定性因素很大,而这句话消除了进入世界杯的不确定性,所以按照定义,这句话的信息量很大。
根据上述可总结如下:信息量的大小与信息发生的概率成反比。概率越大,信息量越小。概率越小,信息量越大。
设某一事件发生的概率为P(x),其信息量表示为:
I ( x ) = − log ( P ( x ) ) (1) \mathrm{I}(\mathrm{x})=-\log (\mathrm{P}(\mathrm{x}))\tag{1} I(x)=−log(P(x))(1)
其中 I ( x ) \mathrm{I}(\mathrm{x}) I(x)表示信息量,这里 l o g log log表示以e为底的自然对数。
信息熵
信息熵也被称为熵,用来表示所有信息量的期望
。
期望是试验中每次可能结果的概率乘以其结果的总和。
所以信息量的熵可表示为:(这里的 X X X是一个离散型随机变量)
H ( X ) = − ∑ i = 1 n P ( x i ) log ( P ( x i ) ) ( X = x 1 , x 2 , x 3 … , x n ) (2) \mathrm{H}(\mathbf{X})=-\sum_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right) \log \left(\mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right)\right)\quad\left(\mathbf{X}=\mathrm{x}_{1}, \mathrm{x}_{2}, \mathrm{x}_{3} \ldots, \mathrm{x}_{\mathrm{n}}\right)\tag{2} H(X)=−i=1∑nP(xi)log(P(xi))(X=x1,x2,x3…,xn)(2)
使用明天的天气概率来计算其信息熵:
H ( X ) = − ( 0.5 ∗ log ( 0.5 ) + 0.2 ∗ log ( 0.2 ) + 0.3 ∗ log ( 0.3 ) ) (3) \mathrm{H}(\mathbf{X})=-(0.5 * \log (0.5)+0.2 * \log (0.2)+0.3 * \log (0.3))\tag{3} H(X)=−(0.5∗log(0.5)+0.2∗log(0.2)+0.3∗log(0.3))(3)
对于0-1分布的问题,由于其结果只用两种情况,是或不是,设某一件事情发生的概率为 P ( x ) \mathrm{P}(\mathrm{x}) P(x),则另一件事情发生的概率为 1 − P ( x ) 1 - \mathrm{P}(\mathrm{x}) 1−P(x),所以对于0-1分布的问题,计算熵的公式可以简化如下:
H ( X ) = − ∑ n = 1 n P ( x i log ( P ( x i ) ) ) = − [ P ( x ) log ( P ( x ) ) + ( 1 − P ( x ) ) log ( 1 − P ( x ) ) ] = − P ( x ) log ( P ( x ) ) − ( 1 − P ( x ) ) log ( 1 − P ( x ) ) (4) \begin{array}{c} \mathrm{H}(\mathbf{X})=-\sum_{\mathrm{n}=1}^{\mathrm{n}} \mathrm{P}\left(\mathrm{x}_{\mathrm{i}} \log \left(\mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right)\right)\right) \\ =-[\mathrm{P}(\mathrm{x}) \log (\mathrm{P}(\mathrm{x}))+(1-\mathrm{P}(\mathrm{x})) \log (1-\mathrm{P}(\mathrm{x}))] \\ =-\mathrm{P}(\mathrm{x}) \log (\mathrm{P}(\mathrm{x}))-(1-\mathrm{P}(\mathrm{x})) \log (1-\mathrm{P}(\mathrm{x}))\tag{4} \end{array} H(X)=−∑n=1nP(xilog(P(xi)))=−[P(x)log(P(x))+(1−P(x))log(1−P(x))]=−P(x)log(P(x))−(1−P(x))log(1−P(x))(4)
给出熵和条件熵的定义。在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量。设 X X X 是一个取有限值的离散随机变量,其概率分布为:
P ( X = x i ) = p i , i = 1 , 2 , ⋯ , n (5) P(X=x_i)=p_i,\quad i=1,2,\cdots,n \tag{5} P(X=xi)=pi,i=1,2,⋯,n(5)
则随机变量 X X X 的熵定义为:
H ( X ) = − ∑ i = 1 n p i log p i (6) H(X)=-\sum_{i=1}^np_i \log p_i \tag{6} H(X)=−i=1∑npilogpi(6)
在公式2,若 p i = 0 p_i=0 p