C++ 数据结构算法 学习笔记(21) - 二叉树企业级应用案例
哈弗曼编码
哈夫曼(Huffman)编码算法是基于二叉树构建编码压缩结构的,它是数据压缩中经典的一种算 法。算法根据文本字符出现的频率,重新对字符进行编码。
首先请大家阅读下面两段中外小学作文: 中国 - 今天天气晴朗,我和小明出去玩!小明贪玩,不小心摔了一跤,小明被摔得哇哇哭了,小明的爸爸闻 声赶来,又把小明痛扁了一阵。小明的小屁屁都被揍扁了,因为小明把妈妈刚买给他的裤子弄破了!
外国 - 今天天气晴朗,我和乔伊·亚历山大·比基·卡利斯勒·达夫·埃利奥特·福克斯·伊维鲁莫·马尔 尼·梅尔斯·帕特森·汤普森·华莱士·普雷斯顿出去玩!乔伊·亚历山大·比基·卡利斯勒·达夫·埃利奥 特·福克斯·伊维鲁莫·马尔尼·梅尔斯·帕特森·汤普森·华莱士·普雷斯顿贪玩,不小心摔了一跤,乔伊·亚 历山大·比基·卡利斯勒·达夫·埃利奥特·福克斯·伊维鲁莫·马尔尼·梅尔斯·帕特森·汤普森·华莱士·普 雷斯顿被摔得哇哇哭了,乔伊·亚历山大·比基·卡利斯勒·达夫·埃利奥特·福克斯·伊维鲁莫·马尔尼·梅 尔斯·帕特森·汤普森·华莱士·普雷斯顿的爸爸闻声赶来,又把乔伊·亚历山大·比基·卡利斯勒·达夫·埃 利奥特·福克斯·伊维鲁莫·马尔尼·梅尔斯·帕特森·汤普森·华莱士·普雷斯顿痛扁了一阵。乔伊·亚历 山大·比基·卡利斯勒·达夫·埃利奥特·福克斯·伊维鲁莫·马尔尼·梅尔斯·帕特森·汤普森·华莱士·普 雷斯顿的小屁屁都被揍扁了,因为乔伊·亚历山大·比基·卡利斯勒·达夫·埃利奥特·福克斯·伊维鲁莫·马 尔尼·梅尔斯·帕特森·汤普森·华莱士·普雷斯顿把妈妈刚买给他的裤子弄破了!
同一段内容,当小明换成了外国小朋友的名字,篇幅就增加了几倍,有没有办法把内容缩减呢? 当然有!在文章的开头,先声明一个缩写:
那么,上面这段文字就可以缩成很小的一段: 今天天气晴朗,我和乔顿出去玩!乔顿贪玩,不小心摔了一跤,乔顿被摔得哇哇哭了,乔顿的爸爸闻声赶来, 又把小明痛扁了一阵。乔顿的小屁屁都被揍扁了,因为乔顿把妈妈刚买给他的裤子弄破了!
哈夫曼编码就是这样一个原理!按照文本字符出现的频率,出现次数越多的字符用越简短的编码 替代,因为为了缩短编码的长度,我们自然希望频率越高的词,编码越短,这样最终才能最大化 压缩存储文本数据的空间。
哈夫曼编码举例: 假设要对“we will we will r u" 进行压缩
压缩前,使用 ASCII 码保存:
下面我们先来统计这句话中每个字符出现的频率。如下表,按频率高低已排序:
接下来,我们按照字符出现的频率,制定如下的编码表:
这样,“we will we will r u”就可以按如下的位来保存
哈夫曼二叉树构建
- 按出现频率高低将其放入一个数组中,从左到右依次为频率逐渐增加
-
从左到右进行合并,依次构建二叉树。第一步取前两个字符 u 和 r 来构造初始二叉树,第一个 字符作为左节点,第二个元素作为右节点,然后两个元素相加作为新的空元素,并且两者权重相 加作为新元素的权重
-
新节点加入后,依据权重重新排序,按照权重从小到大排列,上图已有序。
-
红色区域的新增元素可以继续和 i 合并,如下图所
-
合并节点后, 按照权重从小到大排列,如下图所示
-
排序后,继续合并最左边两个节点,构建二叉树,并且重新计算新节点的权重
-
重新排序
-
重复上面步骤 6 和 7,直到所有字符都变成二叉树的叶子节
代码实现
huffman.h (其实就是使用优先队列)
#pragma once #pragma once #include <stdio.h> #include <assert.h> #include <Windows.h> #include <iostream> #include <iomanip> using namespace std; #define MaxSize 1024 typedef struct _Bnode { char value; int weight; struct _Bnode* parent; struct _Bnode* lchild; struct _Bnode* rchild; } Btree, Bnode; typedef Bnode* DataType; typedef struct _QNode { int priority; DataType data; struct _QNode* next; }QNode; typedef QNode* QueuePtr; typedef struct