【6】Huffman编码和Huffman树

原创已于 2022-07-31 10:18:51 修改 · 260 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #c++ #开发语言

于 2022-07-05 22:16:16 首次发布

算法专栏收录该内容

14 篇文章

订阅专栏

本文介绍了哈夫曼树的概念及其在最小化编码长度的应用，包括两种典型问题：合并果子问题，即如何通过合理合并堆以达到最小的消耗；荷马史诗问题，即如何通过构造哈夫曼树为不同频率的单词分配最优前缀编码。

Huffman编码和Huffman树
(1) Huffman编码
	a. 前缀编码: 是指对字符集进行编码时，要求字符集中任一字符的编码都不是其它字符的编码的前缀。
	b. 树的带权路径长度(WPL)
	c. 构造过程
(2) Huffman树
(3) 应用

前缀编码–所有编码均对应叶节点
WPL的权值是编码出现的次数
哈夫曼构造：每次选择权值最小的两个点进行合并

【问题1】
合并果子

题目描述

在一个果园里，达达已经将所有的果子打了下来，而且按果子的不同种类分成了不同的堆。

达达决定把所有的果子合成一堆。

每一次合并，达达可以把两堆果子合并到一起，消耗的体力等于两堆果子的重量之和。

可以看出，所有的果子经过 $n - 1$ 次合并之后，就只剩下一堆了。

达达在合并果子时总共消耗的体力等于每次合并所耗体力之和。

因为还要花大力气把这些果子搬回家，所以达达在合并果子时要尽可能地节省体力。

假定每个果子重量都为 $1$ ，并且已知果子的种类数和每种果子的数目，你的任务是设计出合并的次序方案，使达达耗费的体力最少，并输出这个最小的体力耗费值。

例如有 $3$ 种果子，数目依次为 $1 ， 2 ， 9$ 。

可以先将 $1 、 2$ 堆合并，新堆数目为 $3$ ，耗费体力为 $3$ 。

接着，将新堆与原先的第三堆合并，又得到新的堆，数目为 $12$ ，耗费体力为 $12$ 。

所以达达总共耗费体力 $= 3 + 12 = 15$ 。

可以证明 $15$ 为最小的体力耗费值。

输入格式

输入包括两行，第一行是一个整数 $n$ ，表示果子的种类数。

第二行包含 $n$ 个整数，用空格分隔，第 $i$ 个整数 $a\_i$ 是第 $i$ 种果子的数目。

输出格式

输出包括一行，这一行只包含一个整数，也就是最小的体力耗费值。

输入数据保证这个值小于 $2^{31}$ 。

数据范围

$1 <= n <= 10000$ ,
$1 <= a\_i <= 20000$

输入样例：

3 
1 2 9

输出样例：

C++ 代码

#include<bits/stdc++.h>
using namespace std;
typedef long long LL;
int main(){
	int n;
	scanf("%d", &n);
	priority_queue<int, vector<int>, greater<int>> heap;
	while(n--){
		int x;
		scanf("%d", &x);
		heap.push(x);
	}
	int res = 0;
	while(heap.size() > 1){
		auto a = heap.top(); heap.pop();
		auto b = heap.top(); heap.pop();
		res += a + b;
		heap.push(a + b);
	}
	printf("%d\n", res);
	return 0;
}

【问题2】
荷马史诗

题目描述

追逐影子的人，自己就是影子。 ——荷马

达达最近迷上了文学。

她喜欢在一个慵懒的午后，细细地品上一杯卡布奇诺，静静地阅读她爱不释手的《荷马史诗》。

但是由《奥德赛》和《伊利亚特》组成的鸿篇巨制《荷马史诗》实在是太长了，达达想通过一种编码方式使得它变得短一些。

一部《荷马史诗》中有 $n$ 种不同的单词，从 $1$ 到 $n$ 进行编号。其中第 $i$ 种单词出现的总次数为 $w\_i$ 。

达达想要用 $k$ 进制串 $s\_i$ 来替换第 $i$ 种单词，使得其满足如下要求:

对于任意的 $1 \leq i, j \leq n ， i \neq = j$ ，都有： $s\_i$ 不是 $s\_j$ 的前缀。

现在达达想要知道，如何选择 $s\_i$ ，才能使替换以后得到的新的《荷马史诗》长度最小。

在确保总长度最小的情况下，达达还想知道最长的 $s\_i$ 的最短长度是多少？

一个字符串被称为 $k$ 进制字符串，当且仅当它的每个字符是 $0$ 到 $k - 1$ 之间（包括 $0$ 和 $k - 1$ ）的整数。

字符串 $St r 1$ 被称为字符串 $St r 2$ 的前缀，当且仅当：存在 $1 \leq t \leq m$ ，使得 $St r 1 = St r 2 [1.. t]$ 。

其中， $m$ 是字符串 $St r 2$ 的长度， $St r 2 [1.. t]$ 表示 $St r 2$ 的前 $t$ 个字符组成的字符串。

注意:请使用 $64$ 位整数进行输入输出、储存和计算。

输入格式

输入文件的第 $1$ 行包含 $2$ 个正整数 $n, k$ ，中间用单个空格隔开，表示共有 $n$ 种单词，需要使用 $k$ 进制字符串进行替换。

第 $\\sim n+1$ 行：第 $i + 1$ 行包含 $1$ 个非负整数 $w\_i$ ，表示第 $i$ 种单词的出现次数。

输出格式

输出文件包括 $2$ 行。

第 $1$ 行输出 $1$ 个整数，为《荷马史诗》经过重新编码以后的最短长度。

第 $2$ 行输出 $1$ 个整数，为保证最短总长度的情况下，最长字符串 $s\_i$ 的最短长度。

数据范围

$2 <= n <= 100000$ ,
$2 <= k <= 9$
$1 <= w\_i <= 10^{12}$

输入样例：

输出样例：

12
2

C++ 代码

#include<bits/stdc++.h>
using namespace std;
typedef long long LL;
typedef pair<LL, int> PLI; 
int main(){
	int n, k;
	scanf("%d%d", &n, &k);
	priority_queue<PLI, vector<PLI>, greater<PLI>> heap;
	while(n--){
		LL w;
		scanf("%lld", &w); //补充0节点,满足K叉哈夫曼树
		heap.push({w,0});
	}
	while((heap.size() - 1) % (k - 1)) heap.push({0,0});
	
	LL res = 0;
	while(heap.size() > 1){
		LL s = 0;
		int depth = 0;
		for(int i = 0 ; i < k; i++){
			auto  t = heap.top();
			heap.pop();
			s += t.first, depth = max(depth, t.second);
		}
		heap.push({s, depth + 1});
		res += s;
	}
	printf("%lld\n%d\n", res, heap.top().second);
	return 0;
}