并查集：按秩归并&路径压缩

最新推荐文章于 2024-11-08 13:39:44 发布

原创最新推荐文章于 2024-11-08 13:39:44 发布 · 1.2k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#并查集 #按秩归并 #路径压缩

C/C++ 同时被 3 个专栏收录

34 篇文章

订阅专栏

数据结构

23 篇文章

订阅专栏

并查集

1 篇文章

订阅专栏

并查集是一种用于处理一些不相交集合的合并与查询的问题的数据结构。本文介绍了如何使用按秩归并优化并查集，避免树形结构高度增加导致查找效率下降。同时，通过路径压缩进一步提升查找效率，实现查找操作的线性时间复杂度。通过实例详细解释了按秩归并与路径压缩的工作原理。

集合可以怎么表示？可以用一棵树来表示，结点表示集合的元素，而树根则用来代表这个集合。所以用树来做集合的并查集的话，对于查找某个元素属于哪个集合，我们就从这个结点开始往上找，找到它所在的这棵树的根结点。对于并集操作，只要把两棵树的根结点并在一起就可以了。所以为了满足这样的操作，我们的树结构有点小改变，变为双亲表示法：“由孩子指向双亲。每个结点都向上指向它的父结点，而不是由父结点向下指向左右子树。”这样的树比较好的是用结构体数组来存储表示。

集合建立好后，接下来看查找操作：

函数把集合和要查找的元素传进去，然后第38行for循环开始查找这个元素X在集合里的位置，也就是数组的下标。i=0开始，i小于MaxSize也就是数组的最大下标，并且S[ i ].Data!=X也就是没找到要查找的元素的话，就i++。循环做完之后，i就等于元素X在结构体数组中的下标。之和要继续找到这个元素结点所在树的根结点，因为根结点的值才是表示一个集合，我们要查找的是这个元素X属于哪一个集合。我们知道表示集合的结点的值是负数，且只有它是负数，所以接下来继续循环，如果S[ i ].Parent>=0的话，就表示没找到表示集合的结点，然后把S[ i ].Parent也就是当前结点的父结点的下标赋值给i，意思是往上一层查找，直到S[ i ].Parent<0了，代表找到根结点了，就退出循环，return i出去。

接着到集合的并运算。并运算是指给出两个元素的值，让你把这两个元素所在的集合并合在一起。这样操作我们要这样做：

1、首先要找到这两个元素所在的树的根结点（也就是找到这两个集合）。

2、判断这两个元素所在的集合是不是同一个集合，如果不是就做并运算，把其中一个树较矮的根结点指向另一个树较高的根结点的数组下标。

一开始先通过查找运算找出两个元素所在树的根结点，也就是找到各自所在的集合。如果两个集合不同，就比较哪个集合较高哪个集合较矮。找出较矮的哪个集合就把它的根结点的Parent换成较高树的根结点的数组下标，也就是让较矮的树指向了较高的树。

为什么要做这样一个查找操作？如果我们随便就把两棵树合并在一起，会出现怎样的一种情况？例如如果我们把一棵较高的树指向一棵较矮的树，那么合并后树的最大高度就会增加，随着并运算的操作次数越多，树变得越来越高，越往后那么集合的查找操作效率就会变得越来越低，因为查找操作是从要查找的结点元素开始一层一层往上找根结点，当集合树高度很大时，要遍历的层数就越多，效率就变得越低了。

所以为了解决这个问题，优化树变高后查找操作的效率，就要用到按秩归并。我们应该把较矮的树指向并到较高的树上（或者把规模小的树接到规模大的树上），这样较矮的树高度增加了，但较高的树高度没有增加，合并后的整棵树最大高度仍然是之前较高的树的高度，所以合并后树的最大高度并没有增加。

注意我们的代码，因为我们在集合的数据结构中，根结点的Parent是一个负数，且数值是表示这个树的所有结点的个数（比较高度时，数值为树的高度），所以比较两个集合（也就是比较两棵树的大小时），根结点的Parent较小的，树更高。第62行就是说当两棵树一样高时，就随便把一棵树并到另一棵树上，然后合并后的树高度加一。注意这里的树高度加一，在Parent上是做减减运算。

通过按秩归并对集合的并运算做优化后，程序运行就快了。其实我们可以继续做优化，用路径压缩。

首先我们看回上面的查找函数

第39行，我们每次读入进来要查找的元素后，都要让i等于0开始，也就是从数组开头开始线性扫描整个数组，这样做的一个不足之处在于，假设数组有n个元素，我们有n个数要查找，而假设最坏情况下每次要查找的元素都是数组的最后一位也就是第n个，那么时间复杂度就会是n²。所以我们想，可以不可以把查找函数里的这一步线性查找做点优化？

我们看集合的表示数据结构，里面的数据域在数组的每个元素里都有一个Data来存它。但其实，任何一个有限的集合里的元素都可以被映射为从0到n-1的整数。所以我们想，可以把元素的值直接用数组的下标来表示。这样就可以把集合的数据结构里的ElementType Data去掉了，也就简化了集合的数据结构，且这样做的好处在于，在查找函数里，我们不用做线性查找的步骤

我们把要查找的元素X传进来后，直接判断S[ X ].Parent是否小于0，如果是，那就是根结点找着了。否则，就递归调用Compress函数，把S[ X ].Parent传进去，也就是找X的父结点，往上一层继续找根结点。直到S[ X ].Parent<0找到后，就return X。

我们用一个例子来解释下这个函数是怎么运作的：

例如对这样一个集合，我们要找的根结点是最上面粉红色的结点，在我们调用查找函数后，最后我们应该返回就是这个粉红色的结点。当我们第一次进入查找函数后，因为最底下的F结点不是我们要找的根结点，所以直接进入查找函数的第110行的递归往上找根结点

直到我们找到根结点后

就把根结点的X的返回出去，返回到上一步的return S[X].Parent=CompressFind(S, S[X].Parent);里，对于上一个结点来说，在返回之前，会先把根结点返回来的值赋给S[ X ].Parent，也就是把根结点变成父结点。之后再做renturn，而对于这个结点来说，return出去的正是自己的父结点，也就是整个集合的根结点。所以倒数第三个结点也指向了根结点