定义:并查集是一种树型的数据结构,用于处理一些不相交集合(Disjoint Sets)的合并及查询问题。常常在使用中以森林来表示。集就是让每个元素构成一个单元素的集合,也就是按一定顺序将属于同一组的元素所在的集合合并。
在一些有N个元素的集合应用问题中,我们通常是在开始时让每个元素构成一个单元素的集合,然后按一定顺序将属于同一组的元素所在的集合合并,其间要反复查找一个元素在哪个集合中。这样的问题看起来似乎很简单,每次直接暴力查找即可,但是我们需要注意的问题是,在数据量非常大的情况下,那么时间复杂度将达到O(N*n)(n为查询次数),那么这类问题在实际应用中,如果采取上述方法去做的话,耗费的时间将是巨大的。而如果用常规的数据结构去解决该类问题的话(顺序结构,普通树结构等),那么计算机在空间上也无法承受。所以,并查集这种数据结构便应运而生了。
举个十分经典的例子:
话说江湖上散落着各式各样的大侠,有上千个之多。整天背着剑在外面走来走去,碰到不是一路人的,就要打一架。但大侠们有一个优点就是讲义气,绝对不打自己的朋友。而且他们信奉“朋友的朋友就是我的朋友”,只要是能通过朋友关系串联起来的,都认为是自己人。这样,江湖上就形成了一个个群落,通过两两之间的朋友关系串联起来。而不在同一个群落的人,无法通过朋友关系连起来,于是就可以放心往死了打。但是两个原本互不相识的人,如何判断是否属于一个朋友圈呢?
我们可以在每个朋友圈内推举出一个有名望的人,作为该圈子的代表人物,这样,每个圈子就可以这样命名“齐达内朋友之队”……两人只要互相对一下自己的队长是不是同一个人,就可以确定敌友关系了。
但是还有问题啊,大侠们只知道自己直接的朋友是谁,很多人压根就不认识队长,要判断自己的队长是谁,只能漫无目的的通过朋友的朋友关系问下去:“你是不是队长?你是不是队长?”这样一来,队长面子上挂不住了,而且效率太低,还有可能陷入无限循环中。于是队长下令,重新组队。队内所有人实行分等级制度,形成树状结构,我队长就是根节点,下面分别是二级队员、三级队员。每个人只要记住自己的上级是谁就行了。遇到判断敌友的时候,只要一层层向上问,直到最高层,就可以在短时间内确定队长是谁了。由于我们关心的只是两个人之间是否连通,至于他们是如何连通的,以及每个圈子内部的结构是怎样的,甚至队长是谁,并不重要。所以我们可以放任队长随意重新组队,只要不搞错敌友关系就好了。于是,门派产生了。
下面我们来看并查集的实现。int pre[1000] 这个数组,记录了每个大侠的上级是谁。大侠们从1开始编号,pre[15]=3就表示15号大侠的上级是3号大侠。如果一个人的上级就是他自己,那说明他就是掌门人了,查找到此为止。也有孤家寡人自成一派的。。每个人都只认自己的上级。find这个函数就是找掌门用的,意义再清楚不过
int find (int x)
{
int r=x;
while (pre[r ]!=r)//判断是否是根节点
r=pre[r ] ;//不是往上接着查找
return r ;
}
那么,还有一个问题,怎么把记录门派记录下来,当两人成为朋友时,他们所在的门派也全都是朋友的朋友了,这个时候,我们只要找到他们的掌门,把其中一个的掌门改成另一个(原来是他本身),这样两个门派就变成一个门派了。
void join (int x,int y)
{
int fx= find (x),fy= find (y);
if(fx != fy)
pre [fx ]= fy;//如果两个元素不在一个集合中,则合并
}
建立门派的过程是用join函数两个人连接起来的,谁当谁的手下随机。路径压缩就是把所有人的上级直接指向掌门,这样可以减少处理的范围。
int find (int x){
int r=x;
while ( pre[r ] != r )
r=pre[r ];
int i=x , j ;
while ( i != r ){
j = pre[ i ];
pre [ i ]= r ;
i=j;
}
return r ;
}
在并查集的基础上,对其中的每一个元素赋有某些值。在对并查集进行路径压缩和合并操作时,这些权值具有一定属性,在这种情况下,需要对程序进行一些改动(视情况而定),常将他们与父节点的关系,变化为与所在树的根结点关系。
某省调查乡村交通状况,得到的统计表中列出了任意两村庄间的距离。省政府“畅通工程”的目标是使全省任何两个村庄间都可以实现公路交通(但不一定有直接的公路相连,只要能间接通过公路可达即可),并要求铺设的公路总长度为最小。请计算最小的公路总长度。
测试输入包含若干测试用例。每个测试用例的第1行给出村庄数目N ( < 100 );随后的N(N-1)/2行对应村庄间的距离,每行给出一对正整数,分别是两个村庄的编号,以及此两村庄间的距离。为简单起见,村庄从1到N编号。当N为0时,输入结束,该用例不被处理
对每个测试用例,在1行里输出最小的公路总长度。
题解:先把所有边按从小到大的顺序排序。然后,逐个选取,在选取的过程中,如果查询到两个端点不在同一个集合,那么必然选择它作为最小生成树的一部分,并合并这两个端点。如果查询到这两个端点在同一个集合里,那么继续选取下一条边,直至选取了n-1条边,算法结束。算法复杂度为排序的复杂度。O(e*log(e))
代码:
#include<cstdio>
#include<cstring>
#include<algorithm>
#define MAXN 10000
using namespace std;
int pre[MAXN];
struct node{
int x,y;
int len;
};
node s[MAXN];
bool cmp(node a,node b){
return a.len<b.len;
}
int find(int x)
{
int r=x;
while(pre[r]!=r)
r=pre[r];
/* int i=x,j;
while(i!=r)
{
j=pre[i];
pre[i]=r;
i=j;
}*/
return r;
}
void join(int x,int y)
{
int fx=find(x),fy=find(y);
if(fx != fy)
pre[fy]=fx;//将两个集合合并
}
int main()
{
int n,m;
while(~scanf("%d",&n) && (n))
{
int i,j;
int ans=0,count=0;
m=n*(n-1)/2;
for(i=1 ; i<=n ; i++)
pre[i]=i;//初始化为每一个数为一个集合
for(i=1 ; i<=m ; i++){
scanf("%d %d %d",&s[i].x,&s[i].y,&s[i].len);
}
sort(s+1,s+m+1,cmp);
for(i=1 ; i<=m ; i++){
if(find(s[i].x)!=find(s[i].y)){
join(s[i].x,s[i].y);
ans+=s[i].len;
count++;
}
if(count==n-1)//最多有n-1条边
break;
}
printf("%d\n",ans);
}
return 0;
}