对于许多最优化问题,使用动态规划算法来求最优解有些杀鸡用牛刀了,可以使用更简单、更高效的贪心算法。它在每一步都做出当时看起来最佳的选择。也就是说,它总是做出局部最优的选择,寄希望这样的选择能导致全局最优解。
贪心算法并不保证得到最优解,但对很多问题确实可以求得最优解。活动选择问题就是可以用贪心算法得到最优解。
16.1 活动选择问题
假定有一个 n 个活动的集合S={a1,a2,...,an},这些活动使用同一个资源(例如阶梯教室),而这个资源在某个时刻只能共一个活动使用。每个活动ai都有一个开始时间si和一个结束时间fi,其中0≤si<fi<∞。如果被选中,任务ai发生在半开区间[ai,fi)期间。如果活动ai和aj满足[si,fi)和[sj,fi)不重叠,则称它们时兼容的。也就是说,若si≥fj或sj≥fi,则ai和aj时兼容的。在活动选择问题中,希望选出一个最大兼容活动集。
假定活动已按结束时间的单调递增顺序排序:
活动选择问题的最优子结构
贪心选择
直观上,应该选择这样一个活动,选出它后剩下的资源应能被尽量多的其他任务所用。现在考虑活动,应该选择S中最早结束的活动。换句话说,因为活动已按结束时间排序,贪心选择就是活动a1.
因此,虽然可以用动态规划方法求解活动选择问题,但并不需要这样做。相反,可以反复选择最早结束的活动,保留与此活动兼容的活动,重复这一过程,直至不在有剩余活动。而且,因为总是选择最早结束的活动,所以选择的活动的结束时间必然时严格递增的。只需按结束时间的单调递增顺序处理所有活动,每个活动只考察一次。
贪心算法通常都是这种自顶向下的设计:做出一个选择,然后求解剩下的那个子问题,而不是自底向上的求解出很多子问题,然后在做出选择。
递归贪心算法
过程RECURSIVE-ACTIVITY-SELECTOR的输入为两个数组s和f。表示活动的开始和结束时间,下标k指出要求解的子问题Sk,以及问题规模n。它返回一个最大兼容活动集。假定输入的n个活动已经按结束时间的单调递增顺序排列好。为了方便算法初始化,添加一个虚拟活动a0其结束时间f0=0这样子问题S0就是完整的活动集S。求解原问题即可调用RECURSIVE-ACTIVITY-SELECTOR(s, f, 0, n).
RECURSIVE-ACTIVITY-SELECTOR(s, f, k, n)
m = k + 1
while m <= n and s[m] < f[k] //find the first activity in Sk to finish
m = m + 1
if m <= n
return {am} U RECURSIVE-ACTIVITY-SELECTOR(s, f, m, n)
else return Ø
假定活动已经按结束时间排好序,则递归调用RECURSIVE-ACTIVITY-SELECTOR(s, f, 0, n)的运行时间为Θ(n)。
迭代贪心算法
过程GREEDY-ACTIVITY-SELECTOR是过程RECURSIVE-ACTIVITY-SELECTOR的一个迭代版本。它也假定输入活动已按结束时间单调递增顺序排好序。它将选出的活动存入集合A,并将A返回调用者。
GREEDY-ACTIVITY-SELECTOR(s,f)
n = s.length
A = {a1}
k = 1
for m = 2 to n
if s[m] >= f[k]
A= A U {am}
k = m
return A
16.2 贪心算法原理
可按如下步骤设计贪心算法:
- 将最优化问题转化为这样的形式:对其做出一次选择后,只剩下一个子问题需要求解。
- 证明做出贪心选择后,原问题总是存在最优解,即贪心选择总是安全的。
- 证明做出贪心选择后,剩余的子问题满足性质:其最优解与贪心选择组合即可得到原问题的最优解,这样就得到了最优子结构。
贪心选择性质
贪心选择性质:可以通过做出局部最优选择来构造全局最优解。
最优子结构
如果一个问题的最优解包含其子问题的最优解,则成此问题具有最优子结构性质。
贪心对动态规划
为了说明两种方法的细微差别,研究一个经典最优化问题的两个变形:
0-1背包问题:一个正在抢劫的小偷发现了 n 个商品, 第 i 个商品价值 vi美元, 重wi磅,vi和wi都是整数。这个小偷希望拿走价值尽量高的商品,但他的背包最多容纳W磅中的商品,W是一个整数,他应该拿那些商品?
在分数背包问题中,设定与0-1背包是一样的,但对每个商品,小偷可以拿走一部分.
两个背包问题都是具有最优子结构性质。对0-1背包问题,考虑重量不超过W而价值最高的装包方案。如果将商品j从此方案中删除,则剩余商品必须是重量不超过W−wj的价值最高的方案。
虽然俩那个问题相似,但可以用贪心策略求解分数背包问题,但是不能求解0-1背包问题。为了求解分数背包问题,首先计算每个商品的每磅价值vi/wi。遵循贪心策略,小偷首先尽量多第拿走每磅价值最高的商品。
对于0-1背包问题,当考虑是否将一个商品装入背包时,必须比较包含此商品的子问题的解与不包含它的子问题的解,然后才能做出选择。这会导致大量的重叠子问题——动态规划标识。动态规划求解0-1背包问题:
//动态规划求解0-1背包
16.3 赫夫曼编码
赫夫曼编码可以很有效地压缩数据:通常可以节省20%~90%的空间。
二进制字符编码(或简称编码)。每个字符用一个唯一的二进制串表示,称为码字。定长编码和变长编码。
前缀码
文件最优编码方案总是对应一颗慢二叉树,即每个非叶结点都有两个孩子结点。
给定一棵对应前缀码的树T,可以很容地第计算出编码一个文件需要多少个二进制位。对与字母边C中的每个字符c,令属性c.freq表示c在文件中出现的频率,令dT(c)表示c的叶节点在树中的深度。注意,dT(c)也是字符c的码子的长度。则编码文件需要
构造赫夫曼编码
赫夫曼设计了一个贪心算法来构造最优前缀码,别称为赫夫曼编码。在下面给出的伪代码中,假定C是一个 n 个字符的集合,而其中每个字符c∈C都是一个对象,其属性c.freq给出了字符出现的频率。算法自底向上地构造出对应最优编码的二叉树T。
HUFFMAN(C)
n = |C|
Q = C
for i = 1 to n -1
allocate a new node z
z.left = x = EXTRACT-MIN(Q)
z.right = y = EXTRACT-MIN(Q)
z.freq = x.freq + y.freq
INSERT(Q,z)
return EXTRACT-MIN(Q)
赫夫曼编码的总运行时间为O(nlgn)。
赫夫曼算法的正确性