自信息, 信息熵, 互信息和K-L散度

本文介绍了信息论的基础概念,包括香农的信息论贡献、比特与自信息的概念,阐述了信息熵的定义及其在数据压缩中的意义,详细解释了互信息和K-L散度,探讨了它们在衡量随机变量间关系和分布差异中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

香农-信息论领域的牛顿


香农一生发表的文章并不多,但是篇篇都是精品。

Amethematical theory of communication通信的数学理论

第一篇文章中提出了比特(bit)的概念。比特究竟测量的是什么呢?香农的回答是:用于测量信息的单位。在香农眼里,信息是和长度、重量这些物理量一样,是一种可以测量和规范的东西。由于对于通信系统而言,其传递的信息具有随机性,所以定量描述信息应基于随机事件。香农认为,任何信息都存在冗余,冗余的大小与信息中每个符号(数字、字母或者单词)的出现概率或者不确定性相关。

比特和自信息


通常,一个信号源发出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现的机会多,不确定性小;反之概率小,出现的机会少,不确定性大。在极限条件下,一个信号源只发出一种符号,即内容是确定的,概率为100%.但是接收方无法从接收信号中获得任何信息,即信息量为零。而反之,如果发送方和接收方约定,1代表二进制的0,2代表二进制的1,接收端可以通过接收到的信源符号获取一定的信息。

再次,较为不可能的时间具有更高的信息量。这个结合上一点很好理解。

最后,独立事件应该具有增量的信息。这一点有点和随机变量的独立性矛盾。每次独立地投掷硬币,正面或者反面的概率是一样的,但是每次独立事件带来的信息是会变化的,例如投掷硬币两次正面朝上传递的信息量,应该是一次正面朝上信息量的两倍。

为了满足上述三个性质,定义自信息(self-information):


式中的log表示自然对数, I(x)的单位是奈特(n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值