CCF 2016-12 04编码（DP+哈夫曼树）

最新推荐文章于 2024-10-31 21:58:15 发布

原创最新推荐文章于 2024-10-31 21:58:15 发布 · 478 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#dp #ccf

DP 同时被 3 个专栏收录

38 篇文章

订阅专栏

数学

9 篇文章

订阅专栏

CCF

5 篇文章

订阅专栏

该博客探讨了一种编码问题，要求使用前缀码对文字进行编码，同时满足编码长度最小且编码按字典序排列。哈夫曼编码虽然能最小化长度，但不满足字典序要求。作者提出了应用动态规划（DP）和四边形规则来优化解决这个问题，以避免常规石子合并算法的高复杂度。博客以一个具体的例子说明了如何寻找最小编码长度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目：给定一段文字，已知单词a₁, a₂, …, a_n出现的频率分别t₁, t₂, …, t_n。可以用01串给这些单词编码，即将每个单词与一个01串对应，使得任何一个单词的编码（对应的01串）不是另一个单词编码的前缀，这种编码称为前缀码。
　　使用前缀码编码一段文字是指将这段文字中的每个单词依次对应到其编码。一段文字经过前缀编码后的长度为：
　　L=a₁的编码长度×t₁+a₂的编码长度×t₂+…+ a_n的编码长度×t_n。
　　定义一个前缀编码为字典序编码，指对于1 ≤ i < n，a_i的编码（对应的01串）的字典序在a_i₊₁编码之前，即a₁, a₂, …, a_n的编码是按字典序升序排列的。
　　例如，文字E A E C D E B C C E C B D B E中， 5个单词A、B、C、D、E出现的频率分别为1, 3, 4, 2, 5，则一种可行的编码方案是A:000, B:001, C:01, D:10, E:11，对应的编码后的01串为1100011011011001010111010011000111，对应的长度L为3×1+3×3+2×4+2×2+2×5=34。
　　在这个例子中，如果使用哈夫曼(Huffman)编码，对应的编码方案是A:000, B:01, C:10, D:001, E:11，虽然最终文字编码后的总长度只有33，但是这个编码不满足字典序编码的性质，比如C的编码的字典序不在D的编码之前。
　　在这个例子中，有些人可能会想的另一个字典序编码是A:000, B:001, C:010, D:011, E:1，编码后的文字长度为35。
　　请找出一个字典序编码，使得文字经过编码后的长度L最小。在输出时，你只需要输出最小的长度L，而不需要输出具体的方案。在上面的例子中，最小的长度L为34。

思路：这道题首先你要懂得哈夫曼树的原理，即编码原理，然后找到区别，哈夫曼树是每次找最小的两个，和的价值为新的价值，然后再找到最小的两个价值，组成新的价值，其实就是贪心的依次取最小两个数；但是这里因为要满足字母序，所以只能和相邻的值合并，联想到DP中的石子合并的问题。

但是普通的石子合并算法复杂度为O(n^3),不能满足这道题的规模，因此要用四边形规则优化。

设m[i,j]表示动态规划的状态量。

m[i,j]有类似如下的状态转移方程：

m[i,j]=min{m[i,k]+m[k,j]}(i≤k≤j)

m[i,j]=min{m[i,k]+m[k,j]}(s[i,j-1]≤k≤s[i+1,j]) 定义s(i,j)为函数m(i,j)对应的使得m(i,j)取得最小值的k值。(具体证明见另外一篇博客)

#include<iostream>
#include<algorithm>
using namespace std;
#define maxn 1000+5
const int INF = (1 << 30);
int dp[maxn][maxn], a[maxn], sum[maxn];
int s[maxn][maxn];
int main()
{
	int n,i,j,start,mink,end,k;
	int temp;
	cin >> n;
	sum[0] = 0;
	for (i = 1; i <= n; i++)
	{
		cin >> a[i];
		sum[i] = sum[i - 1] + a[i];
		s[i][i] = i;
	}
	for (int len = 1; len < n; len++)
	{
		for (start = 1; start <= n - len; start++)
		{
			mink = start;
			temp = INF;
			end = start + len;
			for (k = s[start][end - 1]; k <= s[start + 1][end]; k++)//优化
			{
				if (temp > (dp[start][k] + dp[k+1][end] + sum[end] - sum[start-1]))
				{
					mink = k;//找到k值
					temp = (dp[start][k] + dp[k+1][end] + sum[end] - sum[start-1]);
				}
			}
			s[start][end] = mink;
			dp[start][end] = temp;
		}
	}
	cout << dp[1][n];
	system("pause");
	return 0;
}