基于新划分准则的重叠微博社区检测方法
1. 引言
在现实世界中,存在着各种各样的群体组织,如家庭、工作圈和朋友圈。随着互联网的普及,虚拟群体,如在线社区,在网络上应运而生。社交网络是由一组参与者和代表网络中实体之间交互的关系所定义的。由于社交网络在信息传播和创新方面具有重要作用,对这类网络的分析在研究领域引起了广泛关注。
重叠是社交网络社区结构的一个显著特征,重叠社区检测也越来越受到关注。与传统网络不同,微博网络更加复杂,包含大量用户和各种相互关系。因此,微博用户的社区检测方法与传统社区检测算法不同,需要系统地开展相关研究。
用户标签在个性化推荐中起着重要作用,它们为表示微博用户的属性或兴趣提供了有力的方案。通过利用标签相关性,可以研究标签之间的内部和相互关系,从而扩展用户标签(遵循相关思路),这将增加标签词汇量,减轻在测量用户相似度时的标签稀疏性,并最终揭示用户的隐含兴趣。此外,关注行为形成了微博用户的社交网络,也反映了用户的兴趣。基于以上方面,提出了一种新的划分准则和一种新颖的标签切割策略,用于微博社区检测。
2. 划分准则
微博网络被定义为有向图 $G$,即三元组 $G = (V, E, T)$,其中 $V$ 和 $E$ 分别是图的用户集和边集,$T = {t_1, t_2, t_3, \cdots, t_m}$ 是用户的有限标签集。每个用户 $v_i \in V$,$E = { | v_i \in V, v_j \in V}$ 表示从 $v_i$ 到 $v_j$ 的关注关系。$C = {C_1, C_2, C_3, \cdots, C_k}$ 是 $G$ 的划分结果,$TC_i$ 表示集群 $C_i$ 中用户的标签集。