1, 了解信息熵先弄明白信息量的概念
信息量是指信息多少的量度。
信息量有两个重要的特点:
(1)一个事件的信息量与这个事件发生的概率是呈负相关的
。这个很好理解,就拿生活中的例子来说,越大概率事件所涵盖的信息量越小,如:晴天的早上太阳从东边升起,这可以说是一个必然事件,给我们带来的信息几乎为零。如:国足踢进了世界杯,对于这种几乎不可能的小概率事件,人们估计都会想把它搞清楚,想把他们搞清楚需要的信息很多,比如谁踢进的球,他们赛场上表现如何,犯规了吗等等…变量的不确定性越大,把它搞清楚所需要的信息量也就越大,这很容易理解。
(2)如果两个事件X、Y的发生没有相互影响的关系(两事件不相关),则信息量满足可加性:I(X,Y) = I(X)+ I(Y)
。
我们知道两个不相关事件X、Y发生的概率满足公式:P(X,Y)= P(X)* P(Y)。
由此我们想找到描述信息量与概率关系的函数公式,很显然log对数函数满足我们的需要,所以我们想出了信息量与概率的函数雏形:I(X) = log(P(X))。
此时我们需要思考一下,我们前面讲到信息量的性质(1)“一个事件的信息量与其发生的概率是呈负相关的”,由于log对数函数在定义域内