网络中重叠社区结构检测算法研究
1. 社区候选集的识别
在网络中检测社区结构时,可借助一些现有的社区检测算法来捕捉社区的主体部分,也就是社区候选集。这些算法包括 Kernighan - Lin 算法、谱划分、层次聚类和分裂算法等。其中,谱划分方法基于对适当定义矩阵的谱分析,能展现网络的全局结构,在图中寻找社区方面表现出色。
这里采用带有多级递归的谱二分法来识别社区候选集。对于一个无向无权图,DOCS 算法会将原始图粗化为一系列更高粗化级别的图。在每个粗化图中,拉普拉斯矩阵的菲德勒向量会映射到下一个更粗的图中,进而逼近最粗图的菲德勒向量。在最高粗化级别,DOCS 使用谱二分算法,根据对应拉普拉斯矩阵第二特征向量的菲德勒向量选择一个分割点。依据特征向量中的正负值,将顶点分配到不同部分,把最粗图分割成两个组。对每个组执行递归分割,直到没有分割线索为止。最后,通过一系列较低级别的图将分割结果投影回原始图,最终的分割结果即为种子集。
2. 扩展过程
给定一组种子组,可以使用固定深度或随机游走技术进行扩展。固定深度扩展方法对应广度优先搜索树,其顶点具有相同的扩展权重。随机游走技术则随机扩展顶点的邻居,游走序列形成马尔可夫链。这里提出了一种基于具有弱电导保证的懒惰随机游走技术的新型扩展过程。
扩展过程以时间 t 为尺度。在每个时间步,扫描到的顶点按度归一化概率降序排序。如果一个新顶点能给社区候选集带来更好的 Q 值变化,它可能会被吸收为社区结构的新成员。例如,向椭圆形种子组添加一个邻域顶点的过程中,与种子组成员相连的虚线称为入种子链接,其总数记为 |IL|;指向外部的实线称为出种子链接,总数记为 |OL|。这些链接会影响新顶点加入时种子组的 Q 值变
超级会员免费看
订阅专栏 解锁全文
8536

被折叠的 条评论
为什么被折叠?



