实验六 Huffman编码问题
1. 实验目的
- 掌握二元Huffman编码的方法
- 了解Huffman编码效率以及冗余度的计算方法
- 了解用C++实现Huffman编码的方法
2. 实验要求
编程实现 Huffman 编码问题,并理解其核心思想。对字符串进行 01 编码,输出编码后的 01 序列,并比较其相对于定长编码的压缩率。例如对于字符串AABBBEEEEGZ ,如果使用定长编码, A , B , C , D , E 字符各需要 3 位 01 串编码,编码后的字符长度为3∗11=333*11=333∗11=33 位,如果使用 Huffman 编码,可编码为下图,编码后的字符长度为 2∗3+3∗2+4∗1+4+4=242*3+3*2+4*1+4+4=242∗3+3∗2+4∗1+4+4=24,压缩率为24/33=72.73%。

对文件 orignal.txt 中所有的大小写字母、数字(0-9)以及标点符号(即:除空格 换行等之外的所有字符)按照 Huffman 编码方式编码为 01 序列,输出如下格式的 table.txt 文件,并在控制台打印压缩率。(编码方式可能不唯一,但压缩率是确定的)
| 字符 | 出现频率 | 编码 |
|---|---|---|
| E | 4 | 0 |
3. 实验步骤
3.1 统计文本中字符的频率
对于读取的文件,我们需要存储除了空格和换行以外的所有字符,我们用一个哈希表来存储每个字符以及所对应出现的次数
with open('orignal.txt', 'r', encoding='utf-8') as file:
text = file.read()
text = text.replace(" ", "").replace("\n", "")
def build_frequency_dict(self):
for char in self.text:
self.freq_dict[char] += 1 # 统计字符频率
3.2 创建Huffman树
def build_huffman_tree(self):
heap = [Node(char, freq) for char, freq in self.freq_dict.items()] # 根据字符频率构建最小堆
heapq.heapify(heap)
while len(heap) > 1:
left = heapq.heappop(heap)
right = heapq.heappop(heap)
merged = Node(None, left.freq + right.freq) # 合并频率最小的两个节点
merged.left = left
merged.right = right
heapq.heappush(heap, merged)
self.root = heap[0] # 最后堆中剩下的节点即为Huffman树的根节点
3.3 构造Huffman编码
def generate_huffman_codes(self):
# 生成Huffman编码
def dfs(node, code):
if node.char is not None:
self.huffman_codes[node.char] = code
return
if node.left:
dfs(node.left, code + '0')
if node.right:
dfs(node.right, code + '1')
dfs(self.root, '')
3.4 计算压缩率
def calculate_compression_rate(self): # 计算压缩率
compressed_bits = 0
for char in self.text:
compressed_bits += len(self.huffman_codes[char]) # 计算Huffman编码总位数
char_count = sum(self.freq_dict.values()) # 字符总数
max_bits = int(math.ceil(math.log2(len(self.freq_dict)))) # 计算每个字符需要的最大位数
compression_rate = (compressed_bits / (max_bits * char_count)) * 100 # 计算压缩率
return compression_rate
3.5 写入文件
with open('table.txt', 'w', encoding='utf-8') as table_file:
# 将编码后的字符和对应的频率写入table.txt文件
table_file.write("字符\t出现频率\t编码\n")
for char, code in huffman_tree.huffman_codes.items():
frequency = huffman_tree.freq_dict[char]
table_file.write(f"{char}\t{frequency}\t{code}\n")
4. 实验结果
4.1 压缩率

4.2 编码结果



828

被折叠的 条评论
为什么被折叠?



