社交网络分析与挖掘:原理、任务及应用
1. 图过滤算法与图模式分类聚类
在大规模图数据库中,为了高效过滤图,开发了一种基于特征的结构过滤算法Grafil(Graph Similarity Filtering)。Grafil将每个查询图建模为一组特征,并将边的删除转化为查询图中的“特征缺失”。不过,使用过多特征并不会提升过滤性能,因此提出了多过滤器组合策略。每个过滤器使用特征的不同互补子集,这些过滤器通过分层一维聚类算法构建,该算法将具有相似选择性的特征分组到一个特征集中。实验表明,在适度的松弛比下,多过滤器策略能显著提高性能。
挖掘出的频繁图模式及其变体可用于图分类。首先在训练集中挖掘频繁图模式,那些在一类中频繁出现但在其他类中很少出现的特征可视为高区分性特征,用于模型构建。为实现高质量分类,可根据数据、生成特征的数量和质量以及分类准确率调整频率、区分性和图连通性的阈值。多种分类方法,如支持向量机、朴素贝叶斯和关联分类,都可用于基于图的分类。
同样,挖掘出的图模式也可用于聚类分析。共享大量相似图模式的图集合可被视为高度相似并归为同一聚类。图连通性的概念可作为将相似图分组到聚类中的重要度量,最小支持阈值可用于调整频繁聚类的数量或生成层次聚类。不属于任何聚类或与导出聚类距离较远的图可视为离群点,是聚类分析的副产品。
图模式挖掘中能发现多种不同的图,不同的图模式可能导致不同的分类和聚类结果,因此应将图模式挖掘与图分类/聚类视为一个相互交织的过程,通过探索替代方法和阈值来提高分类和聚类的质量。
2. 社交网络的定义与小世界网络
从数据挖掘的角度看,社交网络是由图表示的异构多关系数据集。图通常非常大,节点对应对象,边对应表示对