深入理解霍夫曼编码：压缩与解压缩的艺术

码字仙子

于 2025-04-22 14:44:02 发布

阅读量265

点赞数 4

CC 4.0 BY-SA版权

文章标签：霍夫曼编码数据压缩 Trie树编码解码无前缀码

本文链接：https://blog.youkuaiyun.com/weixin_42466857/article/details/147435001

背景简介

在信息处理中，数据压缩是一个重要的技术手段，它能够减小数据存储空间，提高传输效率。霍夫曼编码是一种广泛使用的无前缀编码压缩算法，它通过构造一个特定的二叉树（Trie）来实现数据的高效压缩与解压缩。

霍夫曼编码概述

霍夫曼编码的核心思想是基于字符出现频率的不均匀性，通过为频率高的字符分配较短的编码，频率低的字符分配较长的编码，从而达到压缩数据的目的。无前缀码的特性确保了编码过程中不会有歧义的解码问题。

Trie树的构建

Trie树是霍夫曼编码的核心结构，它根据字符的频率构建，频率低的字符远离树根，频率高的字符更靠近树根。构建Trie树的步骤包括：

创建单字符树的森林，并为每个字符分配频率值。
通过合并频率最小的两个树节点来构建更大的树，直至只剩下一个树节点。

private static Node buildTrie(int[] freq) {
    // 构建初始优先队列
    MinPQ<Node> pq = new MinPQ<Node>();
    for (char c = 0; c < R; c++)
        if (freq[c] > 0)
            pq.insert(new Node(c, freq[c], null, null));
    while (pq.size() > 1) {
        // 合并最小频率树节点
        Node x = pq.delMin();
        Node y = pq.delMin();
        Node parent = new Node('\0', x.freq + y.freq, x, y);
        pq.insert(parent);
    }
    return pq.delMin();
}

压缩过程

数据压缩的过程就是遍历Trie树，将输入的字符序列转换为一串比特流。首先，我们需要创建一个编码表，然后通过遍历Trie树，将每个字符转换为对应的二进制编码。

private static String[] buildCode(Node root) {
    String[] st = new String[R];
    buildCode(st, root, "");
    return st;
}

解压缩过程

解压缩则是压缩过程的逆过程。我们首先读取Trie树，然后根据压缩后的比特流，按照Trie树的结构来还原原始数据。

public static void expand() {
    Node root = readTrie();
    int N = BinaryStdIn.readInt();
    for (int i = 0; i < N; i++) {
        Node x = root;
        while (!x.isLeaf())
            if (BinaryStdIn.readBoolean())
                x = x.right;
            else x = x.left;
        BinaryStdOut.write(x.ch);
    }
    BinaryStdOut.close();
}