AutoPart:无参数图划分与离群点检测
1. 引言
在众多应用场景中,如Web分析、路由器网络、社交网络、共引图等,都会出现大型稀疏图。因此,发现图中结构的问题在多个领域得到了广泛研究,例如社交网络、共引网络、生态食物网、蛋白质相互作用图等。这些图结构可以帮助我们深入了解图的特性,比如检测“社区”。
我们面对的图 $G(V, E)$ 由节点集 $V$ 和连接任意节点对的边集 $E$ 组成,涵盖有向图和无向图。我们期望找到能发现图结构并提供深入见解的算法,具体目标如下:
- (G1) 聚类 :将“相似”的节点划分到“自然”的簇中。
- (G2) 离群点检测 :将偏离整体结构的边标记为离群点。
- (G3) 簇间距离计算 :为任意一对簇定义“距离”度量。
此外,这些算法应具备以下主要特性:
- (P1) 自动化 :采用有原则且直观的问题表述,用户无需设置任何参数。
- (P2) 可扩展性 :能够处理大型的、可能存储在磁盘上的图。
- (P3) 增量性 :当添加新节点和边时,允许在线重新计算结果,以便方法能适应新的传入数据,如网络爬虫获取的数据。
我们的目标是在无需用户干预的情况下,在大型图中找到模式。具体而言,我们希望将节点分组,使邻接矩阵尽可能划分为“相似”或“同质”的矩形/正方形区域,这些不同密度的区域将简洁地总结节点之间关联的底层结构。