Huffman编码问题

实验六 Huffman编码问题

1. 实验目的

  • 掌握二元Huffman编码的方法
  • 了解Huffman编码效率以及冗余度的计算方法
  • 了解用C++实现Huffman编码的方法

2. 实验要求

编程实现 Huffman 编码问题,并理解其核心思想。对字符串进行 01 编码,输出编码后的 01 序列,并比较其相对于定长编码的压缩率。例如对于字符串AABBBEEEEGZ ,如果使用定长编码, A , B , C , D , E 字符各需要 3 位 01 串编码,编码后的字符长度为3∗11=333*11=33311=33 位,如果使用 Huffman 编码,可编码为下图,编码后的字符长度为 2∗3+3∗2+4∗1+4+4=242*3+3*2+4*1+4+4=2423+32+41+4+4=24,压缩率为24/33=72.73%。
在这里插入图片描述
对文件 orignal.txt 中所有的大小写字母、数字(0-9)以及标点符号(即:除空格 换行等之外的所有字符)按照 Huffman 编码方式编码为 01 序列,输出如下格式的 table.txt 文件,并在控制台打印压缩率。(编码方式可能不唯一,但压缩率是确定的)

字符出现频率编码
E40

3. 实验步骤

3.1 统计文本中字符的频率

对于读取的文件,我们需要存储除了空格和换行以外的所有字符,我们用一个哈希表来存储每个字符以及所对应出现的次数

with open('orignal.txt', 'r', encoding='utf-8') as file:
   	text = file.read()
text = text.replace(" ", "").replace("\n", "")

def build_frequency_dict(self):
    for char in self.text:
        self.freq_dict[char] += 1  # 统计字符频率

3.2 创建Huffman树

def build_huffman_tree(self):
    heap = [Node(char, freq) for char, freq in self.freq_dict.items()]  # 根据字符频率构建最小堆
    heapq.heapify(heap)
    while len(heap) > 1:
        left = heapq.heappop(heap)
        right = heapq.heappop(heap)
        merged = Node(None, left.freq + right.freq)  # 合并频率最小的两个节点
        merged.left = left
        merged.right = right
        heapq.heappush(heap, merged)
    self.root = heap[0]  # 最后堆中剩下的节点即为Huffman树的根节点

3.3 构造Huffman编码

def generate_huffman_codes(self):
        # 生成Huffman编码
        def dfs(node, code):
            if node.char is not None:
                self.huffman_codes[node.char] = code
                return
            if node.left:
                dfs(node.left, code + '0')
            if node.right:
                dfs(node.right, code + '1')

        dfs(self.root, '')

3.4 计算压缩率

def calculate_compression_rate(self): # 计算压缩率
    compressed_bits = 0

    for char in self.text:
        compressed_bits += len(self.huffman_codes[char])  # 计算Huffman编码总位数

    char_count = sum(self.freq_dict.values())  # 字符总数
    max_bits = int(math.ceil(math.log2(len(self.freq_dict))))  # 计算每个字符需要的最大位数

    compression_rate = (compressed_bits / (max_bits * char_count)) * 100  # 计算压缩率
    return compression_rate

3.5 写入文件

 with open('table.txt', 'w', encoding='utf-8') as table_file:
        # 将编码后的字符和对应的频率写入table.txt文件
        table_file.write("字符\t出现频率\t编码\n")
        for char, code in huffman_tree.huffman_codes.items():
            frequency = huffman_tree.freq_dict[char]
            table_file.write(f"{char}\t{frequency}\t{code}\n")

4. 实验结果

4.1 压缩率

在这里插入图片描述

4.2 编码结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值