信息论:编码、熵与交叉熵的深入解析
在信息传输的领域中,如何高效地传递信息一直是一个关键问题。本文将从编码方式的优化入手,深入探讨熵和交叉熵的概念及其在信息处理中的应用。
定制摩尔斯电码
为了提高信息传输效率,我们可以从摩尔斯电码的优化开始。假设最初的摩尔斯电码是一种固定长度的编码方式,即给每个字符分配相同数量的点和划符号。例如,使用五个符号可以标记 32 个字符。为了简化,我们用不同的音调来表示点和划,每个点(用黑点表示)是持续一个单位时间的高音调,每个划(用红色方块表示)是持续一个单位时间的低音调。这样,每个字符的传输需要 9 个单位时间(5 个点和划,4 个字符间的停顿),这就是固定长度编码。
以《金银岛》的前两个单词 “Squire Trelawney” 为例,在这种固定长度编码下,15 个字母(忽略空格)需要 9×15 = 135 个单位时间,再加上字母间的 14 个停顿(每个停顿 3 个单位时间,共 3×14 = 42 个单位时间),总共需要 135 + 42 = 177 个单位时间。
而实际的摩尔斯电码则不同,它根据字母的使用频率进行编码,常用字母的编码更短。同样是 “Squire Trelawney”,使用实际的摩尔斯电码只需要 101 个单位时间,约为固定长度编码所需时间的一半(101 / 177 ≈ 0.57)。这种根据内容调整编码的方式被称为可变比特率编码或自适应编码,它能显著提高信息传输效率。
对于《金银岛》全文(约 338,000 个字符,不包括空格、标点等),自适应编码所需时间仅为固定长度编码的约 42%。如果我们根据具体书籍的字符概率分布定制编码,效率还会更高。
自适应编码的原理是为概率分布
超级会员免费看
订阅专栏 解锁全文
874

被折叠的 条评论
为什么被折叠?



