Huffman编码问题

原创已于 2024-05-07 20:45:22 修改 · 969 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #贪心算法

于 2024-05-07 16:41:44 首次发布

算法专栏收录该内容

2 篇文章

订阅专栏

实验六 Huffman编码问题

1. 实验目的

掌握二元Huffman编码的方法
了解Huffman编码效率以及冗余度的计算方法
了解用C++实现Huffman编码的方法

2. 实验要求

编程实现 Huffman 编码问题，并理解其核心思想。对字符串进行 01 编码，输出编码后的 01 序列，并比较其相对于定长编码的压缩率。例如对于字符串AABBBEEEEGZ ,如果使用定长编码， A , B , C , D , E 字符各需要 3 位 01 串编码，编码后的字符长度为 $3 * 11 = 33$ 位，如果使用 Huffman 编码，可编码为下图，编码后的字符长度为 $2 * 3 + 3 * 2 + 4 * 1 + 4 + 4 = 24$ ，压缩率为24/33=72.73%。
在这里插入图片描述
对文件 orignal.txt 中所有的大小写字母、数字（0-9）以及标点符号（即：除空格换行等之外的所有字符）按照 Huffman 编码方式编码为 01 序列，输出如下格式的 table.txt 文件,并在控制台打印压缩率。（编码方式可能不唯一，但压缩率是确定的)

字符	出现频率	编码
E	4	0

3. 实验步骤

3.1 统计文本中字符的频率

对于读取的文件，我们需要存储除了空格和换行以外的所有字符，我们用一个哈希表来存储每个字符以及所对应出现的次数

with open('orignal.txt', 'r', encoding='utf-8') as file:
   	text = file.read()
text = text.replace(" ", "").replace("\n", "")

def build_frequency_dict(self):
    for char in self.text:
        self.freq_dict[char] += 1  # 统计字符频率

3.2 创建Huffman树

def build_huffman_tree(self):
    heap = [Node(char, freq) for char, freq in self.freq_dict.items()]  # 根据字符频率构建最小堆
    heapq.heapify(heap)
    while len(heap) > 1:
        left = heapq.heappop(heap)
        right = heapq.heappop(heap)
        merged = Node(None, left.freq + right.freq)  # 合并频率最小的两个节点
        merged.left = left
        merged.right = right
        heapq.heappush(heap, merged)
    self.root = heap[0]  # 最后堆中剩下的节点即为Huffman树的根节点

3.3 构造Huffman编码

def generate_huffman_codes(self):
        # 生成Huffman编码
        def dfs(node, code):
            if node.char is not None:
                self.huffman_codes[node.char] = code
                return
            if node.left:
                dfs(node.left, code + '0')
            if node.right:
                dfs(node.right, code + '1')

        dfs(self.root, '')

3.4 计算压缩率

def calculate_compression_rate(self): # 计算压缩率
    compressed_bits = 0

    for char in self.text:
        compressed_bits += len(self.huffman_codes[char])  # 计算Huffman编码总位数

    char_count = sum(self.freq_dict.values())  # 字符总数
    max_bits = int(math.ceil(math.log2(len(self.freq_dict))))  # 计算每个字符需要的最大位数

    compression_rate = (compressed_bits / (max_bits * char_count)) * 100  # 计算压缩率
    return compression_rate

3.5 写入文件

 with open('table.txt', 'w', encoding='utf-8') as table_file:
        # 将编码后的字符和对应的频率写入table.txt文件
        table_file.write("字符\t出现频率\t编码\n")
        for char, code in huffman_tree.huffman_codes.items():
            frequency = huffman_tree.freq_dict[char]
            table_file.write(f"{char}\t{frequency}\t{code}\n")