Huffman编码问题

实验六 Huffman编码问题

1. 实验目的

  • 掌握二元Huffman编码的方法
  • 了解Huffman编码效率以及冗余度的计算方法
  • 了解用C++实现Huffman编码的方法

2. 实验要求

编程实现 Huffman 编码问题,并理解其核心思想。对字符串进行 01 编码,输出编码后的 01 序列,并比较其相对于定长编码的压缩率。例如对于字符串AABBBEEEEGZ ,如果使用定长编码, A , B , C , D , E 字符各需要 3 位 01 串编码,编码后的字符长度为3∗11=333*11=33311=33 位,如果使用 Huffman 编码,可编码为下图,编码后的字符长度为 2∗3+3∗2+4∗1+4+4=242*3+3*2+4*1+4+4=2423+32+41+4+4=24,压缩率为24/33=72.73%。
在这里插入图片描述
对文件 orignal.txt 中所有的大小写字母、数字(0-9)以及标点符号(即:除空格 换行等之外的所有字符)按照 Huffman 编码方式编码为 01 序列,输出如下格式的 table.txt 文件,并在控制台打印压缩率。(编码方式可能不唯一,但压缩率是确定的)

字符出现频率编码
E40

3. 实验步骤

3.1 统计文本中字符的频率

对于读取的文件,我们需要存储除了空格和换行以外的所有字符,我们用一个哈希表来存储每个字符以及所对应出现的次数

with open('orignal.txt', 'r', encoding='utf-8') as file:
   	text = file.read()
text = text.replace(" ", "").replace("\n", "")

def build_frequency_dict(self):
    for char in self.text:
        self.freq_dict[char] += 1  # 统计字符频率

3.2 创建Huffman树

def build_huffman_tree(self):
    heap = [Node(char, freq) for char, freq in self.freq_dict.items()]  # 根据字符频率构建最小堆
    heapq.heapify(heap)
    while len(heap) > 1:
        left = heapq.heappop(heap)
        right = heapq.heappop(heap)
        merged = Node(None, left.freq + right.freq)  # 合并频率最小的两个节点
        merged.left = left
        merged.right = right
        heapq.heappush(heap, merged)
    self.root = heap[0]  # 最后堆中剩下的节点即为Huffman树的根节点

3.3 构造Huffman编码

def generate_huffman_codes(self):
        # 生成Huffman编码
        def dfs(node, code):
            if node.char is not None:
                self.huffman_codes[node.char] = code
                return
            if node.left:
                dfs(node.left, code + '0')
            if node.right:
                dfs(node.right, code + '1')

        dfs(self.root, '')

3.4 计算压缩率

def calculate_compression_rate(self): # 计算压缩率
    compressed_bits = 0

    for char in self.text:
        compressed_bits += len(self.huffman_codes[char])  # 计算Huffman编码总位数

    char_count = sum(self.freq_dict.values())  # 字符总数
    max_bits = int(math.ceil(math.log2(len(self.freq_dict))))  # 计算每个字符需要的最大位数

    compression_rate = (compressed_bits / (max_bits * char_count)) * 100  # 计算压缩率
    return compression_rate

3.5 写入文件

 with open('table.txt', 'w', encoding='utf-8') as table_file:
        # 将编码后的字符和对应的频率写入table.txt文件
        table_file.write("字符\t出现频率\t编码\n")
        for char, code in huffman_tree.huffman_codes.items():
            frequency = huffman_tree.freq_dict[char]
            table_file.write(f"{char}\t{frequency}\t{code}\n")

4. 实验结果

4.1 压缩率

在这里插入图片描述

4.2 编码结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

根据引用[1]和引用,Huffman编码问题贪心算法可以描述如下: 1. 统计每个字符出现的频率,并将每个字符看作一个权值为其频率的节点。 2. 将所有节点按照权值从小到大排序。 3. 选取权值最小的两个节点,将它们合并成一个新节点,新节点的权值为这两个节点的权值之和。 4. 将新节点插入到节点列表中,并将节点列表按照权值从小到大排序。 5. 重复步骤3和4,直到只剩下一个节点为止。 6. 对于每个字符,从根节点开始,向左走为0,向右走为1,直到到达该字符所对应的叶子节点,记录下所经过的路径即为该字符的Huffman编码。 以下是Python实现代码: ```python import heapq from collections import defaultdict def huffman_encoding(data): # 统计每个字符出现的频率 freq = defaultdict(int) for char in data: freq[char] += 1 # 将每个字符看作一个权值为其频率的节点 nodes = [(f, char) for char, f in freq.items()] # 构建Huffman树 heapq.heapify(nodes) while len(nodes) > 1: f1, left = heapq.heappop(nodes) f2, right = heapq.heappop(nodes) heapq.heappush(nodes, (f1 + f2, (left, right))) # 生成Huffman编码 encoding = {} def generate_encoding(node, prefix=''): if isinstance(node, str): encoding[node] = prefix else: generate_encoding(node[0], prefix + '0') generate_encoding(node[1], prefix + '1') generate_encoding(nodes[0][1]) # 对原始数据进行编码 encoded_data = ''.join(encoding[char] for char in data) return encoded_data, encoding def huffman_decoding(encoded_data, encoding): # 将编码表翻转,方便解码 decoding = {code: char for char, code in encoding.items()} # 解码 decoded_data = '' code = '' for bit in encoded_data: code += bit if code in decoding: decoded_data += decoding[code] code = '' return decoded_data ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值