熵和信息量
假设我们有一组离散的符号集{v1,v2,...vm}{v1,v2,...vm},每个符号具有相应的出现概率PiPi。为了衡量这组符号组成序列的随机性,定义离散分布的熵为:
H=−∑i=1mPilog2Pi(1)(1)H=−∑i=1mPilog2Pi
其中定义0log0=00log0=0。其中对数的底数为2,这时候熵的单位为“比特”。熵是刻画这些符号不确定性的量。熵的值并不依赖于符号本身,而是依赖于符号出现的概率。给定m个符号,当这些符号出现的概率相同时,对应的熵最大。此时的熵:
H=−∑i=1m1mlog21m=−log21m=log2m(2)(2)H=−∑i=1m1mlog21m=−log21m=log2m
对于连续的情况:
H=−∫+∞−∞p(x)lnp(x)dx(3)(3)H=−∫−∞+∞p(x)lnp(x)dx
在所有的连续概率密度函数中,如果均值μμ和方差σ2σ2都是固定的,则使熵达到最大值的是高斯分布。
高斯分布的概率密度函数为:
p(x)=12π−−√σexp(−(x−μ)22σ2)(4)(4)p(x)=12πσexp(−(x−μ)22σ2)
求高斯分布的熵:
H=−∫+∞−∞p(x)lnp(x)dx=0.5+log2(2π−−√σ)(5)(6)(5)H=−∫−∞+∞p(x)lnp(x)dx(6)=0.5+log2(2πσ)
对于离散随机变量xx和任意函数,都有H(f(x))≤H(x)H(f(x))≤H(x)。换而言之,对于信号的任何处理都不会增加熵。特别的当f(x)f(x)是一个常数值函数时,则熵变为0。这个性质对于连续行的随机变量是不成立的。