第 16 章贪心算法

最新推荐文章于 2023-01-20 17:05:03 发布

原创最新推荐文章于 2023-01-20 17:05:03 发布 · 503 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#贪心算法

算法导论第三版专栏收录该内容

15 篇文章

订阅专栏

　　对于许多最优化问题，使用动态规划算法来求最优解有些杀鸡用牛刀了，可以使用更简单、更高效的贪心算法。它在每一步都做出当时看起来最佳的选择。也就是说，它总是做出局部最优的选择，寄希望这样的选择能导致全局最优解。
　　贪心算法并不保证得到最优解，但对很多问题确实可以求得最优解。活动选择问题就是可以用贪心算法得到最优解。
　

16.1 活动选择问题

　　假定有一个 n 个活动的集合S={ $a_1, a_2, ... , a_n$ },这些活动使用同一个资源（例如阶梯教室），而这个资源在某个时刻只能共一个活动使用。每个活动 $a_i$ 都有一个开始时间 $s_i$ 和一个结束时间 $f_i$ ,其中 $0 \le s_i < f_i < ∞$ 。如果被选中，任务 $a_i$ 发生在半开区间 $[a_i, f_i)$ 期间。如果活动 $a_i$ 和 $a_j$ 满足 $[s_i, f_i)$ 和 $[s_j, f_i)$ 不重叠，则称它们时兼容的。也就是说，若 $s_i \ge f_j$ 或 $s_j \ge f_i$ ，则 $a_i$ 和 $a_j$ 时兼容的。在活动选择问题中，希望选出一个最大兼容活动集。
假定活动已按结束时间的单调递增顺序排序：

f 1 \leq f 2 \leq \cdot \cdot \cdot \leq f n - 1 \leq f n

$f_1 \le f_2 \le ··· \le f_{n-1} \le f_n$
　　活动选择问题的最优子结构
　　
　　贪心选择
　　直观上，应该选择这样一个活动，选出它后剩下的资源应能被尽量多的其他任务所用。现在考虑活动，应该选择S中最早结束的活动。换句话说，因为活动已按结束时间排序，贪心选择就是活动

a1 $a_1$ .
　　因此，虽然可以用动态规划方法求解活动选择问题，但并不需要这样做。相反，可以反复选择最早结束的活动，保留与此活动兼容的活动，重复这一过程，直至不在有剩余活动。而且，因为总是选择最早结束的活动，所以选择的活动的结束时间必然时严格递增的。只需按结束时间的单调递增顺序处理所有活动，每个活动只考察一次。
　　贪心算法通常都是这种自顶向下的设计：做出一个选择，然后求解剩下的那个子问题，而不是自底向上的求解出很多子问题，然后在做出选择。
　　递归贪心算法
　　过程RECURSIVE-ACTIVITY-SELECTOR的输入为两个数组s和f。表示活动的开始和结束时间，下标k指出要求解的子问题

Sk $S_k$ ,以及问题规模n。它返回一个最大兼容活动集。假定输入的n个活动已经按结束时间的单调递增顺序排列好。为了方便算法初始化，添加一个虚拟活动

a0 $a_0$ 其结束时间

f0=0 $f_0 = 0$ 这样子问题

S0 $S_0$ 就是完整的活动集S。求解原问题即可调用RECURSIVE-ACTIVITY-SELECTOR(s, f, 0, n).
　　RECURSIVE-ACTIVITY-SELECTOR(s, f, k, n)

m = k + 1
while m <= n and s[m] < f[k]    //find the first activity in Sk to finish
    m = m + 1
if m <= n
    return {am} U RECURSIVE-ACTIVITY-SELECTOR(s, f, m, n)
else return Ø

假定活动已经按结束时间排好序，则递归调用RECURSIVE-ACTIVITY-SELECTOR（s, f, 0, n)的运行时间为Θ（n）。
迭代贪心算法
过程GREEDY-ACTIVITY-SELECTOR是过程RECURSIVE-ACTIVITY-SELECTOR的一个迭代版本。它也假定输入活动已按结束时间单调递增顺序排好序。它将选出的活动存入集合A，并将A返回调用者。
GREEDY-ACTIVITY-SELECTOR（s，f）

n = s.length
A = {a1}
k = 1
for m = 2 to n
    if s[m] >= f[k]
        A= A U {am}
        k = m
return A

16.2 贪心算法原理

可按如下步骤设计贪心算法：

将最优化问题转化为这样的形式：对其做出一次选择后，只剩下一个子问题需要求解。
证明做出贪心选择后，原问题总是存在最优解，即贪心选择总是安全的。
证明做出贪心选择后，剩余的子问题满足性质：其最优解与贪心选择组合即可得到原问题的最优解，这样就得到了最优子结构。

贪心选择性质
贪心选择性质：可以通过做出局部最优选择来构造全局最优解。
最优子结构
如果一个问题的最优解包含其子问题的最优解，则成此问题具有最优子结构性质。
贪心对动态规划
为了说明两种方法的细微差别，研究一个经典最优化问题的两个变形：
　　0-1背包问题：一个正在抢劫的小偷发现了 n 个商品，第 i 个商品价值 $v_i$ 美元，重 $w_i$ 磅， $v_i和w_i$ 都是整数。这个小偷希望拿走价值尽量高的商品，但他的背包最多容纳W磅中的商品，W是一个整数，他应该拿那些商品？
　　在分数背包问题中，设定与0-1背包是一样的，但对每个商品，小偷可以拿走一部分.
　　两个背包问题都是具有最优子结构性质。对0-1背包问题，考虑重量不超过W而价值最高的装包方案。如果将商品j从此方案中删除，则剩余商品必须是重量不超过 $W-w_j$ 的价值最高的方案。
　　虽然俩那个问题相似，但可以用贪心策略求解分数背包问题，但是不能求解0-1背包问题。为了求解分数背包问题，首先计算每个商品的每磅价值 $v_i/w_i$ 。遵循贪心策略，小偷首先尽量多第拿走每磅价值最高的商品。
　　对于0-1背包问题，当考虑是否将一个商品装入背包时，必须比较包含此商品的子问题的解与不包含它的子问题的解，然后才能做出选择。这会导致大量的重叠子问题——动态规划标识。动态规划求解0-1背包问题：
　　

//动态规划求解0-1背包

16.3 赫夫曼编码

赫夫曼编码可以很有效地压缩数据：通常可以节省20%~90%的空间。
二进制字符编码（或简称编码）。每个字符用一个唯一的二进制串表示，称为码字。定长编码和变长编码。
前缀码
　　文件最优编码方案总是对应一颗慢二叉树，即每个非叶结点都有两个孩子结点。
　　给定一棵对应前缀码的树T，可以很容地第计算出编码一个文件需要多少个二进制位。对与字母边C中的每个字符c，令属性c.freq表示c在文件中出现的频率，令 $d_T(c)$ 表示c的叶节点在树中的深度。注意， $d_T(c)$ 也是字符c的码子的长度。则编码文件需要

B (T) = \sum c \in C c . f r e q \cdot d T (c)

$B(T) = \sum_{c∈C}c.freq · d_T(c)$ 个二进制位，将B(T)定义为T的代价。
构造赫夫曼编码
赫夫曼设计了一个贪心算法来构造最优前缀码，别称为赫夫曼编码。在下面给出的伪代码中，假定C是一个 n 个字符的集合，而其中每个字符c∈C都是一个对象，其属性c.freq给出了字符出现的频率。算法自底向上地构造出对应最优编码的二叉树T。
HUFFMAN（C）

n = |C|
Q = C
for i = 1 to n -1 
    allocate a new node z
    z.left = x = EXTRACT-MIN(Q)
    z.right = y = EXTRACT-MIN(Q)
    z.freq = x.freq + y.freq
    INSERT(Q,z)
return EXTRACT-MIN(Q)

赫夫曼编码的总运行时间为O(nlgn)。
赫夫曼算法的正确性