香农-信息论领域的牛顿
香农一生发表的文章并不多,但是篇篇都是精品。
Amethematical theory of communication通信的数学理论
第一篇文章中提出了比特(bit)的概念。比特究竟测量的是什么呢?香农的回答是:用于测量信息的单位。在香农眼里,信息是和长度、重量这些物理量一样,是一种可以测量和规范的东西。由于对于通信系统而言,其传递的信息具有随机性,所以定量描述信息应基于随机事件。香农认为,任何信息都存在冗余,冗余的大小与信息中每个符号(数字、字母或者单词)的出现概率或者不确定性相关。
比特和自信息
通常,一个信号源发出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现的机会多,不确定性小;反之概率小,出现的机会少,不确定性大。在极限条件下,一个信号源只发出一种符号,即内容是确定的,概率为100%.但是接收方无法从接收信号中获得任何信息,即信息量为零。而反之,如果发送方和接收方约定,1代表二进制的0,2代表二进制的1,接收端可以通过接收到的信源符号获取一定的信息。
再次,较为不可能的时间具有更高的信息量。这个结合上一点很好理解。
最后,独立事件应该具有增量的信息。这一点有点和随机变量的独立性矛盾。每次独立地投掷硬币,正面或者反面的概率是一样的,但是每次独立事件带来的信息是会变化的,例如投掷硬币两次正面朝上传递的信息量,应该是一次正面朝上信息量的两倍。
为了满足上述三个性质,定义自信息(self-information):
式中的log表示自然对数, I(x)的单位是奈特(n