信息熵(Information Theory)
信息熵是什么
信息熵的概念在统计学习与机器学习中非常重要, 本文主要罗列一些基于信息熵的概念及其意义。
-
信息熵是一个数学上颇为抽象的概念, 是概率论与数理统计的一个分枝。
-
信息熵常常用于信息处理、通信系统、数据传输、率失真理论、密码学、信噪比、数据压缩等领域。
-
可以把信息熵通俗理解成 某种特定信息的出现概率(离散随机事件的出现概率)。
-
熵是描述事物无序性的参数,熵越大则越混乱。
一个系统越是有序, 信息熵就越低;反之, 一个系统越是混乱, 信息熵就越高。 -
信息熵也可以说是系统有序化程度的一个度量。
如果一个系统 ξ \xi ξ有多个事件 S = { E 1 , E 2 , ⋯ , E n } S=\{E_1, E_2, \cdots, E_n\} S={ E1,E2,⋯,En},每个事件的概率分布为
P = { p 1 , p 2 , ⋯ , p n } P=\{p_1, p_2, \cdots, p_n\} P={ p1,p2,⋯,pn}
则每个事件本身的信息量为:
I e = l o g 1 p i = − l o g p i I_e = log \frac{1}{p_i} = -log p_i Ie=logpi1=−logpi
而熵为整个系统的平均信息量:
H ( ξ ) = ∑ i = 1 n p i l o g 1 p i = − ∑ i = 1 n p i l o g p i H(\xi )=\sum_{i=1}^{n}p_i log \frac{1}{p_i}=-\sum_{i=1}^{n}p_i logp_i H(ξ)=i=1∑npilogpi1