信息理论的鼻祖之一Claude E. Shannon把信息(熵)定义为离散随机事件的出现概率。 计算公式 H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n) 一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。 变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。