社交媒体数据集成用于社区检测
1. 现有社区检测方法概述
在社区检测领域,已经存在多种方法,但各有优劣。
- 枚举 k - 团法 :该方法会枚举所有的 k - 团,然后将共享 k - 1 个节点的任意两个团合并。不过,其计算成本非常高。
- 线图分区法 :Evans 等人提出对 线图的链接进行分区以揭示重叠社区结构。线图可从原始图构建,线图中的每个顶点对应原始图中的一条边,线图中的链接表示原始图中两条边的邻接关系。然而,该算法内存效率低,无法应用于大型社交网络。
- EdgeCluster 方法 :它以边为中心看待图,将边视为实例,节点视为特征,能够找到高度重叠的社区。
- 其他方法 :还包括软聚类和概率模型等。
2. 结合链接和内容信息
生成模型如潜在狄利克雷分配(LDA)可用于通过一组共享的社区成员身份来建模链接和内容。但这些生成模型存在易受无关关键词影响的问题。还有一些概率模型尝试改进链接和内容信息的结合,但它们往往是为特定场景(如作者 - 电子邮件和作者 - 科学论文)设计,且不能很好地集成社交媒体所需的多种数据源。
3. 利用链接之外的交互信息
社交媒体用户有各种类型的交互,这些交互信息对于揭示社交媒体中的群体很重要。例如,有研究提出利用用户的标签行为进行社区检测的共聚类框架,以及通过元图分解(MetaFac)从各种交互中提取社区结构等方法。而本文提出的社区检测方法与这些方法的不同之处在于明确集成了关系强度预测。