计算与通信中的信息编码技术解析
1. 信息理论基础
信息理论是理解通信和计算中信息传递的重要基石。我们先从信息的定义开始,信息在消息中的定义为 (I = \log_2 n),这里的 (n) 是我们可能收到的等概率消息的数量。每个消息都包含相同数量的信息。但在一般情况下,有些消息比其他消息更有可能出现,出现可能性越大的消息,其包含的信息就越少。这符合我们对信息的直观理解,即消息带来的“惊喜”程度代表了它的信息量。
假设消息由符号字母表构建而成,符号数量为 (i),记为 (a_i)。为了计算消息携带的信息,我们需要对符号在消息中的分布做出一些假设。首先,我们为每个符号 (a_i) 分配一个概率 (P_i),它表示消息中任意给定符号是 (a_i) 的概率,这个概率体现了符号 (a_i) 的出现频率。其次,我们假设消息中的每个符号相互独立,即某个位置出现的符号不依赖于其他位置的符号,不过这对于大多数语言来说是不太现实的假设。
若消息长度为 (N),我们预计符号 (a_1) 平均出现 (Np_1) 次,(a_2) 出现 (Np_2) 次,以此类推。通过组合数学的标准公式,我们可以计算出不同消息的数量。如果有 (N) 个对象,其中一种类型有 (m) 个,另一种有 (n) 个,再一种有 (p) 个等等,且 (m + n + p + \cdots = N),那么这些对象的可能排列数为 (\frac{N!}{m!n!p!\cdots})。平均而言,(N) 个符号组成的不同消息数量为 (\frac{N!}{(Np_1)!(Np_2)!\cdots(Np_i)!})。
我们之前将信息定义为字符串中可能消息数量的以 2 为底的对数,这个定义在消息概率不等的情况下同样适用。通过对上述消
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



