408答疑
文章目录
四、选择排序
堆排序
堆的概念
堆(Heap)是一类特殊的数据结构,堆结构采用数组顺序形式存储,可以被视为一棵完全二叉树。堆中某个结点的值总是不大于或不小于其父结点的值,因此堆有大小堆之分。将根结点最大的堆叫做大堆或大根堆,根结点最小的堆叫做小堆或小根堆。堆又叫做优先级队列。
堆的定义
-
n n n 个关键字序列 L [ 1... n ] L[1...n] L[1...n] 称为堆,当且仅当该序列满足:
- L ( i ) ≥ L ( 2 i ) L(i) \geq L(2i) L(i)≥L(2i) 且 L ( i ) ≥ L ( 2 i + 1 ) L(i) \geq L(2i+1) L(i)≥L(2i+1) 或
- L ( i ) ≤ L ( 2 i ) L(i) \leq L(2i) L(i)≤L(2i) 且 L ( i ) ≤ L ( 2 i + 1 ) ( 1 ≤ i ≤ ⌊ n / 2 ⌋ ) L(i) \leq L(2i+1) \quad (1 \leq i \leq \lfloor n/2 \rfloor) L(i)≤L(2i+1)(1≤i≤⌊n/2⌋)
-
大根堆:满足条件 1 的堆称为大根堆,大根堆的最大元素存放在根结点,且其任意一个非根结点的值小于或等于其双亲结点值。
-
小根堆:满足条件 2 的堆称为小根堆,小根堆的定义刚好相反,根结点是最小元素。
如下图所示为一个大根堆和一个小根堆示意图:
堆排序思路
-
首先将存放在数组中的 n n n 个元素建成初始堆,因为堆本身的特点(以大顶堆为例),所以堆顶元素就是最大值。输出堆顶元素后,通常将堆底元素送入堆顶,此时根结点已不满足大顶堆的性质,堆被破坏,将堆顶元素向下调整使其继续保持大顶堆的性质,再输出堆顶元素。如此重复,直到堆中仅剩一个元素为止。
-
堆排序需要解决的问题:
- 如何将无序序列构造成初始堆?
- 输出堆顶元素后,如何将剩余元素调整成新的堆?
堆的操作
分类
-
整体数据建堆:从最后一个分支开始调整,直到根节点调整完毕。
-
插入数据:向上调整(插入数据永远只在末尾位置插入)。
-
删除数据:向下调整(删除数据永远只在堆顶删除)。
整体数据建堆
堆排序的关键是构造初始堆。 n n n 个结点的完全二叉树,最后一个结点是第 ⌊ n / 2 ⌋ \lfloor n/2 \rfloor ⌊n/2⌋ 个结点的孩子。对以第 ⌊ n / 2 ⌋ \lfloor n/2 \rfloor ⌊n/2⌋ 个结点为根的子树筛选(对于大根堆,若根结点的关键字小于左右孩子中关键字较大者,则交换),使该子树成为堆。之后向前依次对以各结点 ⌊ n / 2 ⌋ − 1 ∼ 1 \lfloor n/2 \rfloor - 1 \sim 1 ⌊n/2⌋−1∼1 为根的子树进行筛选,看该结点值是否大于其左右子结点的值,若不大于,则将左右子结点中的较大值与之交换,交换后可能会破坏下一级的堆,于是继续采用上述方法构造下一级的堆,直到以该结点为根的子树构成堆为止。反复利用上述调整堆的方法建堆,直到根结点。
构建堆的调整过程(自下往上逐步调整为大根堆)
构建堆的过程中,需要通过一系列的比较和交换操作来确保每个子树都满足堆的定义。以下是构建堆的详细步骤:
- 初始调整 L ( 4 ) L(4) L(4) 子树:比较 L ( 4 ) L(4) L(4) 的值(09)与其子节点的值(32),因为 09 < 32 09 < 32 09<32,所以交换这两个值,使子树满足堆的定义。
- 继续调整 L ( 3 ) L(3) L(3) 子树:比较 L ( 3 ) L(3) L(3) 的值(78)与其左右孩子的较大者(65 和 87),因为 78 < 87 78 < 87 78<87,所以交换这两个值,使子树满足堆的定义。
- 调整 L ( 2 ) L(2) L(2) 子树:比较 L ( 2 ) L(2) L(2) 的值(17)与其左右孩子的较大者(32 和 45),因为 17 < 45 17 < 45 17<45,所以交换这两个值,使子树满足堆的定义。
- 调整根结点
L
(
1
)
L(1)
L(1):
- 比较 L ( 1 ) L(1) L(1) 的值(53)与其左右孩子的较大者(45 和 87),因为 53 < 87 53 < 87 53<87,所以交换这两个值,使子树满足堆的定义。
- 交换后破坏了 L ( 3 ) L(3) L(3) 子树的堆,采用上述方法对 L ( 3 ) L(3) L(3) 进行调整,比较 L ( 3 ) L(3) L(3) 的值(53)与其左右孩子的较大者(65 和 78),因为 53 < 78 53 < 78 53<78,所以交换这两个值,使子树满足堆的定义。
通过这些步骤,最终构建了一个满足堆定义的完全二叉树。
插入数据
堆也支持插入操作。对堆进行插入操作时,先将新结点放在堆的末端,再对这个新结点向上执行调整操作。
- 在插入新元素后,需要进行向上调整以保持堆的性质。具体操作如下:
- 将新元素添加到堆的末尾。
- 比较新元素与其父节点的值。
- 如果新元素大于父节点,则交换两者。
- 重复步骤 2 和 3,直到新元素不再需要上移或到达堆顶。
大根堆的插入操作示例
假设有一个大根堆,插入新元素后,需要从底部开始向上调整,直到新元素找到合适的位置。这个过程可能涉及多次比较和交换操作,以确保堆的性质得以维持。
删除数据
输出堆顶元素后,将堆的最后一个元素与堆顶元素交换,此时堆的性质被破坏,需要向下进行筛选。将 09 和左右孩子的较大者 78 交换,交换后破坏了
L
(
3
)
L(3)
L(3) 子树的堆,继续对
L
(
3
)
L(3)
L(3) 子树向下筛选,将 09 和左右孩子的较大者 65 交换,交换后得到了新堆,调整过程如图所示。
堆的应用
堆排序
堆排序是一种高效的排序算法,适用于关键字较多的数据排序。其基本过程如下:
-
排序过程:每次将堆顶元素与堆的最后一个元素交换(注意不是存储空间的最后一个元素,而是堆结构中的最后一个有效结点),然后对堆进行一次向下调整,反复循环,直到堆的所有元素排序完成。
-
升序排序:构建大根堆。
-
降序排序:构建小根堆。
-
升序排序示例如下图所示:
topk 问题
topk 问题是一个求前k个最值问题,可以借助堆结构进行筛选。
- 求topK的最大值:构建小堆。
- 求topK的最小值:构建大堆。
例题:现有 1亿 个不重复的数,求出前 100 个最大值。
- 首先使用一个大小为 100 的数组,读入前 100 个数,建立小顶堆,而后依次读入余下的数,若小于堆顶则舍弃,否则用该数取代堆顶并重新调整堆,待数据读取完毕,堆中 100 个数为所求。
堆排序算法的性能分析
- 空间效率:仅使用了常数个辅助单元,所以空间复杂度为 O ( 1 ) O(1) O(1)。
- 时间效率:建堆时间为 O ( n ) O(n) O(n),之后有 n − 1 n-1 n−1 次向下调整操作,每次调整的复杂度为 O ( h ) O(h) O(h),所以在最好、最坏和平均情况下,堆排序的时间复杂度为 O ( n log 2 n ) O(n\log_2 n) O(nlog2n)。
- 稳定性:进行筛选时,有可能把后面相同关键字的元素调整到前面,所以堆排序算法是一种不稳定的排序算法。例如,表 L = { 1 , 2 1 , 2 2 } L = \{1, 2_1, 2_2\} L={1,21,22},构造初始堆时可能将 2 1 2_1 21 交换到堆顶,此时 L = { 2 1 , 1 , 2 2 } L = \{2_1, 1, 2_2\} L={21,1,22},最终排序序列为 L = { 1 , 2 2 , 2 1 } L = \{1, 2_2, 2_1\} L={1,22,21},显然, 2 1 2_1 21 与 2 2 2_2 22 的相对次序已发生变化。
- 适用性:堆排序仅适用于顺序存储的线性表。
九、参考资料
鲍鱼科技课件
b站免费王道课后题讲解:
网课全程班: