【6】Huffman编码和Huffman树

本文介绍了哈夫曼树的概念及其在最小化编码长度的应用,包括两种典型问题:合并果子问题,即如何通过合理合并堆以达到最小的消耗;荷马史诗问题,即如何通过构造哈夫曼树为不同频率的单词分配最优前缀编码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Huffman编码和Huffman树
(1) Huffman编码
	a. 前缀编码: 是指对字符集进行编码时,要求字符集中任一字符的编码都不是其它字符的编码的前缀。
	b. 树的带权路径长度(WPL)
	c. 构造过程
(2) Huffman树
(3) 应用

前缀编码–所有编码均对应叶节点
WPL的权值是编码出现的次数
哈夫曼构造:每次选择权值最小的两个点进行合并

【问题1】
合并果子

题目描述

在一个果园里,达达已经将所有的果子打了下来,而且按果子的不同种类分成了不同的堆。

达达决定把所有的果子合成一堆。

每一次合并,达达可以把两堆果子合并到一起,消耗的体力等于两堆果子的重量之和。

可以看出,所有的果子经过 n − 1 n-1 n1 次合并之后,就只剩下一堆了。

达达在合并果子时总共消耗的体力等于每次合并所耗体力之和。

因为还要花大力气把这些果子搬回家,所以达达在合并果子时要尽可能地节省体力。

假定每个果子重量都为 1 1 1,并且已知果子的种类数和每种果子的数目,你的任务是设计出合并的次序方案,使达达耗费的体力最少,并输出这个最小的体力耗费值。

例如有 3 3 3 种果子,数目依次为 1 , 2 , 9 1,2,9 129

可以先将 1 、 2 1、2 12 堆合并,新堆数目为 3 3 3,耗费体力为 3 3 3

接着,将新堆与原先的第三堆合并,又得到新的堆,数目为 12 12 12,耗费体力为 12 12 12

所以达达总共耗费体力 = 3 + 12 = 15 =3+12=15 =3+12=15

可以证明 15 15 15 为最小的体力耗费值。

输入格式

输入包括两行,第一行是一个整数 n n n,表示果子的种类数。

第二行包含 n n n 个整数,用空格分隔,第 i i i 个整数 a _ i a\_i a_i 是第 i i i 种果子的数目。

输出格式

输出包括一行,这一行只包含一个整数,也就是最小的体力耗费值。

输入数据保证这个值小于 2 31 2^{31} 231

数据范围

1 < = n < = 10000 1<= n <= 10000 1<=n<=10000,
1 < = a _ i < = 20000 1 <= a\_i <= 20000 1<=a_i<=20000

输入样例:
3 
1 2 9 
输出样例:
15

C++ 代码
#include<bits/stdc++.h>
using namespace std;
typedef long long LL;
int main(){
	int n;
	scanf("%d", &n);
	priority_queue<int, vector<int>, greater<int>> heap;
	while(n--){
		int x;
		scanf("%d", &x);
		heap.push(x);
	}
	int res = 0;
	while(heap.size() > 1){
		auto a = heap.top(); heap.pop();
		auto b = heap.top(); heap.pop();
		res += a + b;
		heap.push(a + b);
	}
	printf("%d\n", res);
	return 0;
}

【问题2】
荷马史诗

题目描述

追逐影子的人,自己就是影子。 ——荷马

达达最近迷上了文学。

她喜欢在一个慵懒的午后,细细地品上一杯卡布奇诺,静静地阅读她爱不释手的《荷马史诗》。

但是由《奥德赛》和《伊利亚特》组成的鸿篇巨制《荷马史诗》实在是太长了,达达想通过一种编码方式使得它变得短一些。

一部《荷马史诗》中有 n n n 种不同的单词,从 1 1 1 n n n 进行编号。其中第 i i i 种单词出现的总次数为 w _ i w\_i w_i

达达想要用 k k k 进制串 s _ i s\_i s_i 来替换第 i i i 种单词,使得其满足如下要求:

对于任意的 1 ≤ i , j ≤ n , i ≠ j 1≤i,j≤n,i≠j 1i,jni=j,都有: s _ i s\_i s_i 不是 s _ j s\_j s_j 的前缀。

现在达达想要知道,如何选择 s _ i s\_i s_i,才能使替换以后得到的新的《荷马史诗》长度最小。

在确保总长度最小的情况下,达达还想知道最长的 s _ i s\_i s_i 的最短长度是多少?

一个字符串被称为 k k k 进制字符串,当且仅当它的每个字符是 0 0 0 k − 1 k−1 k1 之间(包括 0 0 0 k − 1 k−1 k1)的整数。

字符串 S t r 1 Str1 Str1 被称为字符串 S t r 2 Str2 Str2 的前缀,当且仅当:存在 1 ≤ t ≤ m 1≤t≤m 1tm,使得 S t r 1 = S t r 2 [ 1.. t ] Str1=Str2[1..t] Str1=Str2[1..t]

其中, m m m 是字符串 S t r 2 Str2 Str2 的长度, S t r 2 [ 1.. t ] Str2[1..t] Str2[1..t] 表示 S t r 2 Str2 Str2 的前 t t t 个字符组成的字符串。

注意:请使用 64 64 64 位整数进行输入输出、储存和计算。

输入格式

输入文件的第 1 1 1 行包含 2 2 2 个正整数 n , k n,k n,k,中间用单个空格隔开,表示共有 n n n 种单词,需要使用 k k k 进制字符串进行替换。

2 s i m n + 1 2 \\sim n+1 2simn+1 行:第 i + 1 i+1 i+1 行包含 1 1 1 个非负整数 w _ i w\_i w_i,表示第 i i i 种单词的出现次数。

输出格式

输出文件包括 2 2 2 行。

1 1 1 行输出 1 1 1 个整数,为《荷马史诗》经过重新编码以后的最短长度。

2 2 2 行输出 1 1 1 个整数,为保证最短总长度的情况下,最长字符串 s _ i s\_i s_i 的最短长度。

数据范围

2 < = n < = 100000 2 <= n <= 100000 2<=n<=100000,
2 < = k < = 9 2 <= k <= 9 2<=k<=9
1 < = w _ i < = 1 0 12 1 <= w\_i <= 10^{12} 1<=w_i<=1012

输入样例:
4 2
1
1
2
2
输出样例:
12
2

C++ 代码
#include<bits/stdc++.h>
using namespace std;
typedef long long LL;
typedef pair<LL, int> PLI; 
int main(){
	int n, k;
	scanf("%d%d", &n, &k);
	priority_queue<PLI, vector<PLI>, greater<PLI>> heap;
	while(n--){
		LL w;
		scanf("%lld", &w); //补充0节点,满足K叉哈夫曼树
		heap.push({w,0});
	}
	while((heap.size() - 1) % (k - 1)) heap.push({0,0});
	
	LL res = 0;
	while(heap.size() > 1){
		LL s = 0;
		int depth = 0;
		for(int i = 0 ; i < k; i++){
			auto  t = heap.top();
			heap.pop();
			s += t.first, depth = max(depth, t.second);
		}
		heap.push({s, depth + 1});
		res += s;
	}
	printf("%lld\n%d\n", res, heap.top().second);
	return 0;
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值