强连通分量在图论问题中得到广泛的应用,往往可以将有向图缩点,得到一个 DAG,于是避免了原图中可能有环造成后效性,可以在上面进行动态规划求解。
显然强连通分量是只针对于有向图而言的。对于一个连通的无向图,它本身就是一个连通分量。
例如,对于该图:
不难看出,其中结点 1、2、3 和 4 任意两点间互相可达,于是可以在上面跑一遍求强连通分量的算法,进行缩点后得到:
为了学习好强连通分量,必须首先明确一些相关概念。可能会有些枯燥,但也是必要的。
如果在一个图中,选取一些结点和边,得到的新图中任意两个结点间互相可达,则称该新图为原图的一个连通子图。
强连通分量是有向图的极大连通子图。所谓“极大”,是指对于该连通分量,不存在原图中某个不在该连通分量的点,可以加入后依然使该连通分量强连通。
通俗地说,就是每一个强连通分量都已经不能再大了,无法往其中加点。对于缩点后得到的新图,不存在某两个结点相互可达。
求强连通分量的算法有好几种,这里我们介绍一下 Tarjan 算法。
该算法是以其发明者 Robert Tarjan 的姓名命名的,值得一提的是,这个人还提出了解决 LCA 的离线算法、LCT、并查集等,是计算界一位伟大的科学家。
求强连通分量的 Tarjan 算法是基于 dfs 实现的。因此有必要回顾一下,对于有向图,进行深度优先遍历时边的分类:
我们在做dfs的时候,当访问到一个节点时,会出现四种情况:
- 此节点未被访问过,则此次的访问关系边(发起点——>接受点)称为树边(tree edge);
- 此节点被访问过但此节点的子孙还没访问完,换句话说,此次的发起点的源头可以追溯到接收点,则此次访问关系边称为后向边(back edge);
- 此节点被访问过且此节点的子孙已经访问完,而且发起点是搜索初始边,则称为前向边(down edge);
- 此节点被访问过且此节点的子孙已经访问完,而且发起点不是搜索初始边,则称为横叉边(cross edge)。
在理解了这几个边的基础上,再来看 Tarjan 算法就会好理解很多。Tarjan 算法求强连通分量的核心是用到了两个数组 dfn[]
和 low[]
进行标记,因此有时它也被称为 DFN-LOW 算法。(dfn 的全称应该为 depth first (traversal) number?)
我们知道,对于一个图的深度优先遍历是有一定顺序的,而且可以用堆栈保存遍历的过程。通过巧妙的处理,可以在回溯时判断栈顶到栈中的结点是否在同一个强连通分量中。定义
dfnu
为节点
u
被访问到的次序编号(时间戳),
于是有
low(u) = min{
dfn(n), //这是显然的
low(v), //对于 u 在搜索树中的每一个儿子 v,即 (u, v) 为树边
dfn(v), //v 为栈中结点,但不是 u 的儿子,即 (u, v) 为后向边
}
当
dfnu=lowu
时,以
u
为根的搜索子树中的所有结点组成一个强连通分量,这个比较好理解,也就是说,从
理解好 low 数组的妙用,则整个算法的精华就掌握了,编程上并不难实现。容易发现,在整个算法过程中,每个结点只进出一次堆栈,每条边也只被访问一次,因此算法的时间复杂度是 O(n+m) ,比另一种求强连通分量的 Kosaraju 算法要快。
模板:
void Tarjan(int u)
{
dfn[u]=low[u]=++time1;
ins[u]=true;
stac[++top]=u;
for(int i=0;i<edge[u].size();i++)
{
int v=edge[u][i];
if(!dfn[v])
{
Tarjan(v);
low[u]=min(low[u],low[v]);
}
else if(ins[v])low[u]=min(low[u],dfn[v]);
}
if(dfn[u]==low[u])
{
cnt++;
int k;
do
{
k=stac[top--];
ins[k]=false;
p[k]=cnt;
}while(k!=u);
}
}
事实上,很多算法和数据结构的学习都是这样的,掌握好这个算法本身并不是特别困难。当理解了之后,要编码是不难实现的,关键在于如何灵活运用。
本篇笔记参考资料:https://www.byvoid.com/blog/tag/Tarjan
在此表示感谢。