信息熵
今天看书的时候, 发现一个有点意思的名词--"信息熵", 是香农在他著名的论文"通信的数学原理"中
提出, "信息熵"解决了信息的度量问题, 量化信息的作用.
世界杯的32支队伍里面, 假设用1~32编码代表每一支球队, 现在你想要知道那支球队获得冠军, 你要
用最少的询问次数获得结果.在做题的话我会采用二分的方法,
log32 = 5, 最多5次结果就出来了. 但是在
实际应用中你不需要5次就可以了, 因为你绝对不会猜日本,
韩国之类的球队, 你会猜西班牙, 德国和意大利
这样的球队. 因此去除不会猜的队伍, 在剩下中再次编码二分法,
次数会大概3~4次.
这样的问题中, 在信息量中, 采用的是"比特"代替了次数, 这样猜测问题中, 消耗是5个比特. 香农提
出准确的公式: H = - (p1*logp1 +
p2*logp2 + ... + pn*logpn); (p1是球队获得冠军的概率, log是以二
为底, 全文出现都是以二为底).
上面的问题结果是最多5次, 可以用这条公式证明:
证明:
设Ti = pi * log(pi), 这里转换一下 == > Ti = (xi/32) *
(log(xi/32))
Ti = (xi/32) * ( log(xi) - log32 )
= (xi/32) * ( log(xi) - 5 )
∑Ti = ∑(xi/32)*(log(xi)) - 5 * ∑(xi/32) (0
<= i <= 32)
= ∑(xi/32)*(log(xi)) - 5
即: H = -∑Ti = 5 - ∑(xi/32)*(log(xi))
显然这里最大值是5 (∑(xi/32)*(log(xi)) 这里可以求导证明结果最小值为0,
当全部xi取1时);
证明完毕
H(X) = - ∑p(x)*log(p(x)); (x ∈ X)