以前写过一篇关于最大熵模型的读书笔记。刚翻陈家鼎和郑忠国两位老师合编的教材《概率与统计》(北大出版社,2007),看到关于信息熵的详细数学表述,不妨转述一下,算是不在场的课堂笔记。
概率与信息
事件A的概率P(A)是A发生可能性的大小的度量。
问题:A的发生带给我们多大的信息呢?
结论
P(A)越大,则A发生带来的信息越少;反之,P(A)越小,则A的发生带来的信息越大。
例子:有人对你说“某日巴西足球队战胜了中国队”,你觉得他没有给你多少信息,因为这件事发生的概率非常大,结果几乎在预料当中。但如果他说巴西负于某个亚洲队,你会感觉得到的信息不少。
猜想
- 事件A发生所带来的信息量H(A)应该是它发生的概率P(A)的严格减函数,而且A是必然事件时H(A)=0(“巴西队战胜中国队”)。
- 若事件A与事件B相互独立,则A与B都发生带来的信息量应该是H(A)与H(B)之和,即H(AB)=H(A)+H(B)。
引理1—H(u)=-clnu
设H(u)是(0,1]上的严格减函数,H(1)=0,则为了满足H(uv)=H(u)+H(v),对一切0 <1,必须且只需存

本文介绍了概率与信息熵的概念,指出事件发生的概率越大,信息量越小;反之,概率越小,信息量越大。内容包括信息量的严格减函数性质、独立事件的信息量求和、信息量的表示以及完备事件组的熵定义。还探讨了当事件有相等概率时,结果的不确定性最大的定理。
最低0.47元/天 解锁文章
3375

被折叠的 条评论
为什么被折叠?



