信息论:信息熵+信息散度(交叉熵\kl距离)

本文探讨了如何通过变长编码和非变长编码计算平均信息长度,以A、B、C、D四个单词的不同频率为例,涉及交叉熵、KL距离和最优编码策略。讨论了罗密欧与朱丽叶信件编码时,不同频率分布下的交叉熵应用和意义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

信息散度(交叉熵\kl距离)

思考题:对于只用A,B,C,D四个单词写的信使用0和1进行编码的一个信息的平均编码长度?思考题:对于只用A,B,C,D四个单词写的信\\ 使用0和1进行编码的一个信息的平均编码长度?\\ A,B,C,D使01
如果使用非变长编码平均长度为2,与单词出现的频率无关如果使用非变长编码平均长度为2,与单词出现的频率无关使2

如果使用变长编码需要考虑“前缀码”的问题(prefix−property)这样使用“0”来代表一个信息,因为前缀的问题,“0”将占据12的空间(也就是不能再以0开头的其他长度的码了)实际上对于任何一个长为l的编码,其占据的空间为12l如果使用变长编码需要考虑“前缀码”的问题(prefix- property)\\ 这样使用“0”来代表一个信息,因为前缀的问题,“0”将占据\frac{1}{2}的空间(也就是不能再以0开头的其他长度的码了)\\ 实际上对于任何一个长为l的编码,其占据的空间为\frac{1}{2^l} 使(prefixproperty)使0021(0)l2l1
f(x)=12lf(x)=\frac{1}{2^l}f(x)=2l1
在这里插入图片描述
使用短的码字能够减少平均信息长度,但是会更多地消耗码字空间使用短的码字能够减少平均信息长度,但是会更多地消耗码字空间使
应该为某个词分配多少花费来产生相应的码字呢应该为某个词分配多少花费来产生相应的码字呢

按照词汇使用的频繁程度来为对应的码字付出相应的空间。空间=12l证明这种情况是最优的:、、、、、、、、、、、、、、、、、、、、、、、、省略按照词汇使用的频繁程度来为对应的码字付出相应的空间。空间=\frac{1}{2^l} \\ 证明这种情况是最优的:、、、、、、、、、、、、、、、、、、、、、、、、\\ 省略 使=2l1
因为占据的空间为12l占据的空间为\frac{1}{2^l}2l1,所以长度l=log2(1空间)l=log_2(\frac{1}{空间})l=log2(1),由此得到长度的均值:
H(p)=∑xp(x)log2(1p(x))H(p)=\sum_x p(x)log_2(\frac{1}{p(x)})H(p)=xp(x)log2(p(x)1)


比如:A:12,B:14,C:18,D:18比如:A:\frac{1}{2},B:\frac{1}{4},C:\frac{1}{8},D:\frac{1}{8}A21,B:41,C:81,D:81
H(p)=∑xp(x)log2(1p(x))=12∗1+14∗2+18∗3+18∗3H(p)=\sum_x p(x)log_2(\frac{1}{p(x)})=\frac{1}{2}*1+\frac{1}{4}*2+\frac{1}{8}*3+\frac{1}{8}*3H(p)=xp(x)log2(p(x)1)=211+412+813+813


思考题:罗密欧与朱丽叶,只用A,B,C,D四个单词写信与回信,但是他们消息对单词的使用频率不同思考题:罗密欧与朱丽叶,\\只用A,B,C,D四个单词写信与回信,但是他们消息对单词的使用频率不同\\ A,B,C,D使
使用一种分布的最优编码对另一个分布进行编码,得到的码字的平均长度称为交叉熵(cross−entropy)Hp(q)=∑xq(x)log2(1p(x))再罗密欧的频率p下编码然后朱丽叶以q频率使用使用一种分布的最优编码对另一个分布进行编码,得到的码字的平均长度称为交叉熵(cross-entropy)\\ H_p(q)=\sum_x q(x)log_2(\frac{1}{p(x)})\\ 再罗密欧的频率p下编码然后朱丽叶以q频率使用 使(crossentropy)Hp(q)=xq(x)log2(p(x)1)pq使

性质

不满足对称性,不满足三角不等式所以叫散度
一般地,Hp(q)≠Hq(p),即交叉熵不具有对称性交叉熵给了我们一种表达两个概率分布差异程度的方法。两个概率分布p与q的差异越大,p相对于q的交叉熵就会比p自身的熵大得更多。一般地,H_p(q)\neq H_q(p),即交叉熵不具有对称性\\ 交叉熵给了我们一种表达两个概率分布差异程度的方法。\\ 两个概率分布 p 与q 的差异越大,p 相对于q 的交叉熵就会比p 自身的熵大得更多。 Hp(q)=Hq(p),pqpqp
最有趣的地方在于熵与交叉熵之间的差。这个差代表着某个分布下的消息由于使用另一个分布下的编码,而额外使用的长度的平均值。如果这两个分布是相同的,那么这个差就是零。随着分布的差异变大,得到的差也会变大。 最有趣的地方在于熵与交叉熵之间的差。这个差代表着某个分布下的消息由于使用另一个 分布下的编码,\\而额外使用的长度的平均值。如果这两个分布是相同的,那么这个差就是零。 随着分布的差异变大,得到的差也会变大。 使使

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值