信息熵

最新推荐文章于 2022-09-03 15:37:15 发布

安益空间

最新推荐文章于 2022-09-03 15:37:15 发布

阅读量1.5k

点赞数

本文介绍了信息熵的概念及其在衡量信息量、系统复杂度等方面的应用。详细解释了信息熵的数学公式及其推导过程，并讨论了信息熵在数据压缩、人工智能及特征选择中的作用。

信息熵是用来衡量一个随机变量出现的期望值，一个变量的信息熵越大，那么他出现的各种情况也就越多，也就是包含的内容多，我们要描述他就需要付出更多的表达才可以，也就是需要更多的信息才能确定这个变量。在吴军老师的那篇《汉语信息熵和语言模型的复杂度》文章里说，只考虑字频的话英文是4.46比特/字符的信息熵，汉字是9.6比特/字符，直观上很容易理解，英文字母只有26个，所以描述一个字母所需要的信息表示不多，而中文字却很多，就需要更多的信息量才能表示。用点通俗的来讲，信息熵衡量了一个系统的复杂度，比如当我们想要比较两门课哪个更复杂的时候，信息熵就可以为我们作定量的比较，信息熵大的就说明那门课的信息量大，更加复杂。

那么信息熵可以做什么呢，首先信息熵作为衡量一个系统复杂度的表示，在压缩时就相当于一个压缩极限的下限，不同的内容，如果他的信息熵越小，说明信息量越小，也就是压缩后所占的体积能够更小，信息熵在人工智能方面也有很多的应用，其中最有名的就是最大熵原理，保留尽可能大的不确定性而作出最佳的尽量无偏差的决定。

最后来看看信息熵的公式

为什么会有这样的公式呢，很多地方都直接没有说这个问题，这个公式并不是香农随便乱说的，在香农1948年的那篇文章里就可以看到，这个公式是推导出来的。香农说，熵这个公式需要满足这么几条性质，对于随机变量S的取值(s1,s2...sn)发生的概率是(p1,p2...pn)，那么

信息熵对于pi应该是连续的
如果所有的pi都相等，也就是pi=1/n那么信息熵应该是关于n的单调递增函数
信息熵是可以分别计算的，如图左，p1=1/2,p2=1/3,p3=1/6，就相当于是首先有两个事件p1=p2=1/2，然后在第二事件又分为p1=2/3,p2=1/3，所以信息熵H(1/2,1/3,1/6)=H(1/2,1/2)+1/2*H(2/3,1/3)