Huffman编码和Huffman树
(1) Huffman编码
a. 前缀编码: 是指对字符集进行编码时,要求字符集中任一字符的编码都不是其它字符的编码的前缀。
b. 树的带权路径长度(WPL)
c. 构造过程
(2) Huffman树
(3) 应用
前缀编码–所有编码均对应叶节点
WPL的权值是编码出现的次数
哈夫曼构造:每次选择权值最小的两个点进行合并
【问题1】
合并果子
题目描述
在一个果园里,达达已经将所有的果子打了下来,而且按果子的不同种类分成了不同的堆。
达达决定把所有的果子合成一堆。
每一次合并,达达可以把两堆果子合并到一起,消耗的体力等于两堆果子的重量之和。
可以看出,所有的果子经过 n − 1 n-1 n−1 次合并之后,就只剩下一堆了。
达达在合并果子时总共消耗的体力等于每次合并所耗体力之和。
因为还要花大力气把这些果子搬回家,所以达达在合并果子时要尽可能地节省体力。
假定每个果子重量都为 1 1 1,并且已知果子的种类数和每种果子的数目,你的任务是设计出合并的次序方案,使达达耗费的体力最少,并输出这个最小的体力耗费值。
例如有 3 3 3 种果子,数目依次为 1 , 2 , 9 1,2,9 1,2,9。
可以先将 1 、 2 1、2 1、2 堆合并,新堆数目为 3 3 3,耗费体力为 3 3 3。
接着,将新堆与原先的第三堆合并,又得到新的堆,数目为 12 12 12,耗费体力为 12 12 12。
所以达达总共耗费体力 = 3 + 12 = 15 =3+12=15 =3+12=15。
可以证明 15 15 15 为最小的体力耗费值。
输入格式
输入包括两行,第一行是一个整数 n n n,表示果子的种类数。
第二行包含 n n n 个整数,用空格分隔,第 i i i 个整数 a _ i a\_i a_i 是第 i i i 种果子的数目。
输出格式
输出包括一行,这一行只包含一个整数,也就是最小的体力耗费值。
输入数据保证这个值小于 2 31 2^{31} 231。
数据范围
1
<
=
n
<
=
10000
1<= n <= 10000
1<=n<=10000,
1
<
=
a
_
i
<
=
20000
1 <= a\_i <= 20000
1<=a_i<=20000
输入样例:
3
1 2 9
输出样例:
15
C++ 代码
#include<bits/stdc++.h>
using namespace std;
typedef long long LL;
int main(){
int n;
scanf("%d", &n);
priority_queue<int, vector<int>, greater<int>> heap;
while(n--){
int x;
scanf("%d", &x);
heap.push(x);
}
int res = 0;
while(heap.size() > 1){
auto a = heap.top(); heap.pop();
auto b = heap.top(); heap.pop();
res += a + b;
heap.push(a + b);
}
printf("%d\n", res);
return 0;
}
【问题2】
荷马史诗
题目描述
追逐影子的人,自己就是影子。 ——荷马
达达最近迷上了文学。
她喜欢在一个慵懒的午后,细细地品上一杯卡布奇诺,静静地阅读她爱不释手的《荷马史诗》。
但是由《奥德赛》和《伊利亚特》组成的鸿篇巨制《荷马史诗》实在是太长了,达达想通过一种编码方式使得它变得短一些。
一部《荷马史诗》中有 n n n 种不同的单词,从 1 1 1 到 n n n 进行编号。其中第 i i i 种单词出现的总次数为 w _ i w\_i w_i。
达达想要用 k k k 进制串 s _ i s\_i s_i 来替换第 i i i 种单词,使得其满足如下要求:
对于任意的 1 ≤ i , j ≤ n , i ≠ j 1≤i,j≤n,i≠j 1≤i,j≤n,i=j,都有: s _ i s\_i s_i 不是 s _ j s\_j s_j 的前缀。
现在达达想要知道,如何选择 s _ i s\_i s_i,才能使替换以后得到的新的《荷马史诗》长度最小。
在确保总长度最小的情况下,达达还想知道最长的 s _ i s\_i s_i 的最短长度是多少?
一个字符串被称为 k k k 进制字符串,当且仅当它的每个字符是 0 0 0 到 k − 1 k−1 k−1 之间(包括 0 0 0 和 k − 1 k−1 k−1)的整数。
字符串 S t r 1 Str1 Str1 被称为字符串 S t r 2 Str2 Str2 的前缀,当且仅当:存在 1 ≤ t ≤ m 1≤t≤m 1≤t≤m,使得 S t r 1 = S t r 2 [ 1.. t ] Str1=Str2[1..t] Str1=Str2[1..t]。
其中, m m m 是字符串 S t r 2 Str2 Str2 的长度, S t r 2 [ 1.. t ] Str2[1..t] Str2[1..t] 表示 S t r 2 Str2 Str2 的前 t t t 个字符组成的字符串。
注意:请使用 64 64 64 位整数进行输入输出、储存和计算。
输入格式
输入文件的第 1 1 1 行包含 2 2 2 个正整数 n , k n,k n,k,中间用单个空格隔开,表示共有 n n n 种单词,需要使用 k k k 进制字符串进行替换。
第 2 s i m n + 1 2 \\sim n+1 2simn+1 行:第 i + 1 i+1 i+1 行包含 1 1 1 个非负整数 w _ i w\_i w_i,表示第 i i i 种单词的出现次数。
输出格式
输出文件包括 2 2 2 行。
第 1 1 1 行输出 1 1 1 个整数,为《荷马史诗》经过重新编码以后的最短长度。
第 2 2 2 行输出 1 1 1 个整数,为保证最短总长度的情况下,最长字符串 s _ i s\_i s_i 的最短长度。
数据范围
2
<
=
n
<
=
100000
2 <= n <= 100000
2<=n<=100000,
2
<
=
k
<
=
9
2 <= k <= 9
2<=k<=9
1
<
=
w
_
i
<
=
1
0
12
1 <= w\_i <= 10^{12}
1<=w_i<=1012
输入样例:
4 2
1
1
2
2
输出样例:
12
2
C++ 代码
#include<bits/stdc++.h>
using namespace std;
typedef long long LL;
typedef pair<LL, int> PLI;
int main(){
int n, k;
scanf("%d%d", &n, &k);
priority_queue<PLI, vector<PLI>, greater<PLI>> heap;
while(n--){
LL w;
scanf("%lld", &w); //补充0节点,满足K叉哈夫曼树
heap.push({w,0});
}
while((heap.size() - 1) % (k - 1)) heap.push({0,0});
LL res = 0;
while(heap.size() > 1){
LL s = 0;
int depth = 0;
for(int i = 0 ; i < k; i++){
auto t = heap.top();
heap.pop();
s += t.first, depth = max(depth, t.second);
}
heap.push({s, depth + 1});
res += s;
}
printf("%lld\n%d\n", res, heap.top().second);
return 0;
}