文章目录
信息熵公式
香农(Shannon) - 信息论
H ( X ) = E [ I ( X ) ] = E [ − l o g ( P ( X ) ) ] = ∑ i = 0 n − p ( x i ) ⋅ l o g ( p ( x i ) ) \begin{align*} H(X) &= E[I(X)]\\ &=E[-log(P(X))]\\ &=\sum_{i=0}^n -p(x_i)\cdot log(p(x_i)) \end{align*} H(X)=E[I(X)]=E[−log(P(X))]=i=0∑n−p(xi)⋅log(p(xi))
- X X X 为随机变量
- I ( X ) I(X) I(X) 为自信息
自信息公式推导
I ( X ) = l o g ( 1 P ( X ) ) = − l o g ( P ( X ) ) \begin{align*} I(X) &=log(\frac{1}{P(X)})\\ &= -log(P(X)) \end{align*} I(X)=log(P(X)1)=−log(P(X))
1. 使用 P ( X ) P(X) P(X)
- 根据该基本事件 X X X 发生
- 自信息量 = 1 / P ( X ) 1/P(X) 1/P(X)
- 一个基本事件发生的概率越低,代表当其发生时所 “携带的信息” 以及 “使得系统信息熵降低程度” 更大,可以更精准地定位系统状态/熵的变化幅度
2. 选用 l o g log log 的原因
- 一条信息的可能性 “含量” 随着内存位数的增加而指数倍增加
- 系统的实际衡量标准之一就是 “内存” 大小
- 二进制:计算机存储信息
- 1 b i t 1\ bit 1 bit 有 { 0 , 1 } \{0, 1\} { 0,1} → 2 1 \rightarrow 2^1 →21 个状态
- N b i t s N\ bits N bits 有 → 2 N \rightarrow 2^N →2N 个状态
- 将信息含量按照存储方式(如二进制)转化为实际的内存大小: l o g 2 ( 2 N ) → N b i t s log_2(2^N) \rightarrow N\ bits log2(2N)→N bits
- 整个系统中,每个最小单位所存储的信息量(标准化): i = 1 / 2 N i = 1/2^N i=1/2N
N = l o g 0.5 ( i ) → N = l o g ( i ) → N = l o g ( 2 N ) \begin{align*} N &= log_{0.5}(i)\\ \rightarrow N &= log(i)\\ \rightarrow N &= log(2^N) \end{align*} N→N→N=log
- 整个系统中,每个最小单位所存储的信息量(标准化): i = 1 / 2 N i = 1/2^N i=1/2N