信息论
文章目录
基本知识
-
基本思想: 一件不太可能的事情发生, 要比一件非常可能的事情发生提供更多的信息
-
性质:
- 非常可能发生的事情信息量较少,并且极端情况下,一定能够发生的事件应该没有信息量
- 比较不可能发生的事件具有更大的信息量
- 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。
1. 自信息 ,信息熵,互信息
自信息 - self-information
如果说概率P是对确定性的度量,信息是对不确定性的度量,这两者是相对的, 事件发生的概率越大,那么事件的信息量就越小, 事件的概率与事件的信息量之间成反比。
举例来说:如果事件A发生的概率比事件B发生的概率要大,那么我们就说事件B的信息量要比事件A的信息量要大。
信息量能够量化以上性质,定义一个事件x的自信息为:
I ( x ) = − l o g ( p ( x ) ) I(x) = -log(p(x)) I(x)=−log(p(x))
当该对数的底数为自然对数 e 时,单位为奈特(nats);当以 2 为底数时,单位为比特(bit)或香农(shannons).
信息熵 – information-entropy
信息熵是对平均不确定性的度量,本质上是所有事件的信息量的期望, 对整个概率分布中的不确定性总量进行量化:
H ( X ) = E X [ I ( x ) ] = − ∑ x ∈ X p ( x ) l o g ( p ( x ) ) ; X 表示所有事件 H(X) = E_{X}[I(x)]=-\sum_{x \in X} p(x)log(p(x)); \quad X 表示所有事件\\ H(X)=EX[I(x)]=−x∈X∑p(x)log(p(x));X表示所有事件
信息论中,记 0log0 = 0
- 当且仅当某个 P ( X i ) = 1 P(X_i)=1 P(Xi)=1,其余的都等于0时, H(X)= 0。
- 当且仅当某个 P ( X i ) = 1 / n , i = 1 , 2 , … … , n P(X_i)=1/n,i=1, 2,……, n P(Xi)=1/n,i=1,2,……,n时, H ( X ) H(X) H(X) 有极大值 log n。
熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。
互信息
I ( X , Y ) = ∑ y ∈ Y ∑ x ∈ X p ( x , y ) l o g ( p ( x , y ) p ( x ) p ( y ) ) I(X,Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) log( \frac{p(x,y)}{p(x)p(y)}) I(X,Y)=y∈Y∑x∈X∑p(x,y)log(p(x)p(y)