信息论基础简介

信息论在不光在通信领域有着广泛的应用,其在自然语言处理中仍然有着广泛的应用,甚至可以说其对nlp有着指导性的意义。鉴于此,对于信息论的基本概念做一下总结是很有必要的。

信息熵

我们知道,今天处在一个信息化的社会,那么不同的事物,大到比如语言文字、小到猜谜游戏,它们的信息量怎样去衡量呢?信息论的创始人香农提出了一个思路,一个事物的信息量可以用其不确定性来衡量,依据这个观点,信息熵的引出也就非常自然了。举个例子,世界杯有32只球队,假设我们对这32个球队没有先验知识,盲猜那个队伍会夺冠,学过二分搜索的朋友们应该很容易发现我们需要 log32 = 5 次就一定可以猜到冠军是哪只球队。直觉上,我们是可以用盲猜的次数来代表信息量的,以上的问题信息量为5,单位为比特。那么有人要问了,大多情况下我们并非对球队一无所知,如果我们优选选择搜索夺冠热门,很可能不需要5次就能猜中答案,这时信息量是多少呢?香农指出,其信息为:

                                                               H = -(p_1logp_1 + p_2logp_2 + ... + p_{32}logp_{32})

p1,p2,...p32为各个球队夺冠的概率,香农称其为信息熵。我们给出信息熵的定义,对于任意的一个随机变量X,它的信息熵为:

                                                                          H(X) = -\sum_{x \in X} p(x) log p(x)x

对于连续的随机变量,我们可以改用积分符号,这里不做赘述。

消除不确定性

一个事物内部会存在随机性,也就是不确定性,假设为U,而从外部消除这个不确定性唯一的办法是引入信息I,而需要引入的信息量取决于这个不确定性的大小,即I > U才行。当I < U时,这些信息可以消除一部分不确定性,也就是新的不确定性。

                                                                                      {U}' = U - I

反之,如果没有信息,任何公式或者数字的游戏都无法排除不确定性

但是问题来了,根据之前的介绍,U我们可以通过事物的不确定性来衡量。但是I怎么衡量呢?总不能用不确定性来定义"用来消除不确定性"的信息(information)。

1. 条件熵

上面提出的问题暂且放一下,我们先来看条件熵的定义。条件概率相信大家都是熟悉的,说的是已知随机变量Y的情况下,随机变量X的概率p(X = x|Y = y)。类似的,我们可以定义条件熵,也就是已知事件Y的信息,X的不确定性:

                                                                     H(X|Y) = -\sum_{x \in X, y \in Y} p(x,y) logp(x|y)

后面我们会证明H(X|Y) <= H(X),直觉上也很好理解,但凡Y和X是有一定相关性的,知道了Y的信息,那么X的不确定性自然会减少。如果X和Y完全不相关,知道了Y自然也不会对X的不确定性有什么影响。

2. 互信息

有了条件熵的定义,那么,两个随机事件之间的相关程度怎样来衡量呢。这里给出一个思考的角度:两个随机事件X和Y的相关度(有方向性)的量度,就是在了解了其中一个事件Y的前提下,对消除另一个事件X不确定性所提供的信息。按照这个角度,我们定义一个新的量,互信息:

                                                                            I(X;Y) = H(X) - H(X|Y)

我们可以很容易的推导得出:

                                                                     

我们回到最开始提出的问题,怎样去衡量信息I?按照定义,互信息正是给不确定性带来信息的那个量。

3. 相对熵(或者叫KL散度、交叉熵)

信息论中另外一个重要的概念是“相对熵”,它用来衡量两个取值为正数(注意是正数)的函数(PDF正符合这种描述)的相似性:

                                                                      

从离散的角度来考虑,公式转化为:

 

关于相对熵,我们需要记住关于它的三个结论:

1. 完全相同的函数,它们的相对熵为0

2. 相对熵越大,两个函数差异越大

3. 相对熵可以衡量两个概率密度函数,或者说两个概率分布之间的差异。

 

附录

1. 证明:KL(p(x)||q(x)) \geqslant 0 恒成立。依据Jensen不等式,我们有

                                                                          KL(f||g) \\ \geq -log(\sum_{x \in X}f(x) \frac{g(x)}{f(x)}) \\ = - log(1) \\ = 0

2. 证明:互信息恒大于0。对于互信息I(x,y),我们有:

                                                           

显然,其恒大于0

 

 

 

CONTENTS Contents v Preface to the Second Edition xv Preface to the First Edition xvii Acknowledgments for the Second Edition xxi Acknowledgments for the First Edition xxiii 1 Introduction and Preview 1.1 Preview of the Book 2 Entropy, Relative Entropy, and Mutual Information 2.1 Entropy 2.2 Joint Entropy and Conditional Entropy 2.3 Relative Entropy and Mutual Information 2.4 Relationship Between Entropy and Mutual Information 2.5 Chain Rules for Entropy, Relative Entropy,and Mutual Information 2.6 Jensen’s Inequality and Its Consequences 2.7 Log Sum Inequality and Its Applications 2.8 Data-Processing Inequality 2.9 Sufficient Statistics 2.10 Fano’s Inequality Summary Problems Historical Notes v vi CONTENTS 3 Asymptotic Equipartition Property 3.1 Asymptotic Equipartition Property Theorem 3.2 Consequences of the AEP: Data Compression 3.3 High-Probability Sets and the Typical Set Summary Problems Historical Notes 4 Entropy Rates of a Stochastic Process 4.1 Markov Chains 4.2 Entropy Rate 4.3 Example: Entropy Rate of a Random Walk on a Weighted Graph 4.4 Second Law of Thermodynamics 4.5 Functions of Markov Chains Summary Problems Historical Notes 5 Data Compression 5.1 Examples of Codes 5.2 Kraft Inequality 5.3 Optimal Codes 5.4 Bounds on the Optimal Code Length 5.5 Kraft Inequality for Uniquely Decodable Codes 5.6 Huffman Codes 5.7 Some Comments on Huffman Codes 5.8 Optimality of Huffman Codes 5.9 Shannon–Fano–Elias Coding 5.10 Competitive Optimality of the Shannon Code 5.11 Generation of Discrete Distributions from Fair Coins Summary Problems Historical Notes CONTENTS vii 6 Gambling and Data Compression 6.1 The Horse Race 159 6.2 Gambling and Side Information 164 6.3 Dependent Horse Races and Entropy Rate 166 6.4 The Entropy of English 168 6.5 Data Compression and Gambling 171 6.6 Gambling Estimate of the Entropy of English 173 Summary 175 Problems 176 Historical Notes 182 7 Channel Capacity 183 7.1 Examples of Channel Capacity 1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值