信息论：信息熵+信息散度(交叉熵\kl距离)_信息熵离散程度-优快云博客

本文链接：https://blog.youkuaiyun.com/ResumeProject/article/details/118639210

本文探讨了如何通过变长编码和非变长编码计算平均信息长度，以A、B、C、D四个单词的不同频率为例，涉及交叉熵、KL距离和最优编码策略。讨论了罗密欧与朱丽叶信件编码时，不同频率分布下的交叉熵应用和意义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

信息散度(交叉熵\kl距离)

$思考题：对于只用A,B,C,D四个单词写的信使用0和1进行编码的一个信息的平均编码长度？思考题：对于只用A,B,C,D四个单词写的信\\ 使用0和1进行编码的一个信息的平均编码长度？\\$
$如果使用非变长编码平均长度为 2 ，与单词出现的频率无关$

$property)\\ 这样使用“0”来代表一个信息，因为前缀的问题，“0”将占据\frac{1}{2}的空间(也就是不能再以0开头的其他长度的码了)\\ 实际上对于任何一个长为l的编码，其占据的空间为\frac{1}{2^l}$
$f(x)=12lf(x)=\frac{1}{2^l}$
在这里插入图片描述
$使用短的码字能够减少平均信息长度，但是会更多地消耗码字空间$
$应该为某个词分配多少花费来产生相应的码字呢$

$按照词汇使用的频繁程度来为对应的码字付出相应的空间。空间=12l证明这种情况是最优的：、、、、、、、、、、、、、、、、、、、、、、、、省略按照词汇使用的频繁程度来为对应的码字付出相应的空间。空间=\frac{1}{2^l} \\ 证明这种情况是最优的：、、、、、、、、、、、、、、、、、、、、、、、、\\ 省略$
因为 $占据的空间为12l占据的空间为\frac{1}{2^l}$ ,所以长度 $l=log2(1空间)l=log_2(\frac{1}{空间})$ ，由此得到长度的均值：
$H(p)=∑xp(x)log2(1p(x))H(p)=\sum_x p(x)log_2(\frac{1}{p(x)})$

$比如：A：12,B:14,C:18,D:18比如：A：\frac{1}{2},B:\frac{1}{4},C:\frac{1}{8},D:\frac{1}{8}$
$H(p)=∑xp(x)log2(1p(x))=12∗1+14∗2+18∗3+18∗3H(p)=\sum_x p(x)log_2(\frac{1}{p(x)})=\frac{1}{2}*1+\frac{1}{4}*2+\frac{1}{8}*3+\frac{1}{8}*3$

$思考题：罗密欧与朱丽叶，只用A,B,C,D四个单词写信与回信，但是他们消息对单词的使用频率不同思考题：罗密欧与朱丽叶，\\只用A,B,C,D四个单词写信与回信，但是他们消息对单词的使用频率不同\\$
$使用一种分布的最优编码对另一个分布进行编码，得到的码字的平均长度称为交叉熵(cross−entropy)Hp(q)=∑xq(x)log2(1p(x))再罗密欧的频率p下编码然后朱丽叶以q频率使用使用一种分布的最优编码对另一个分布进行编码，得到的码字的平均长度称为交叉熵(cross-entropy)\\ H_p(q)=\sum_x q(x)log_2(\frac{1}{p(x)})\\ 再罗密欧的频率p下编码然后朱丽叶以q频率使用$

性质

不满足对称性，不满足三角不等式所以叫散度
$一般地，Hp(q)≠Hq(p),即交叉熵不具有对称性交叉熵给了我们一种表达两个概率分布差异程度的方法。两个概率分布p与q的差异越大，p相对于q的交叉熵就会比p自身的熵大得更多。一般地，H_p(q)\neq H_q(p),即交叉熵不具有对称性\\ 交叉熵给了我们一种表达两个概率分布差异程度的方法。\\ 两个概率分布 p 与q 的差异越大，p 相对于q 的交叉熵就会比p 自身的熵大得更多。$
$分布下的编码，\\而额外使用的长度的平均值。如果这两个分布是相同的，那么这个差就是零。随着分布的差异变大，得到的差也会变大。$