隐藏群组识别:算法与实验分析
1. 聚类算法概述
在分析通信网络时,我们关注两个关键指标:一是可能的通信总数,二是群组内通信数量与包括对外消息在内的群组总通信数量的比率。从图论角度看,这其实是聚类问题。我们采用的方法有一个重要特点,即所构建的聚类可能会重叠,也就是说,部分参与者可能会被分配到多个群组中。
以往在图聚类领域的研究,大多聚焦于图划分这一特定子问题。与划分算法将网络分解为不相交的参与者群组不同,通用聚类允许群组通过重叠来自然延伸边界。这里介绍三种通用聚类启发式算法,分别是迭代扫描(Iterative Scan,IS)、排名移除(Rank Removal,RaRe)和链接聚合(Link Aggregate,LA)。通过实验数据可以看出,这些启发式算法具有高效性、灵活性和准确性。
将空间和时间相关性搜索相结合,能得到更有效的隐藏群组识别算法。时间算法可指示大量个体参与某项活动的规划,而空间相关算法则能将这个大群体聚类成重叠的子群体,这些子群体对应着大群体内的小工作小组。
2. 发现时间相关性
2.1 文献回顾
早期对时间相关隐藏群组的识别研究始于使用隐马尔可夫模型。我们的方法基于随机图理论,同时融入了一些社会科学理论,如同类相吸理论,将群组结构纳入模型。
此前有研究分析秘密社团,重点在于其结构而非通信内容。2001 年 9 月 11 日的恐怖袭击事件促使大量关于发现隐藏群组的研究涌现,旨在了解组织劫机的恐怖组织。相关研究重建了该网络结构并进行分析,发现穆罕默德·阿塔在策划中处于核心地位,且需移除大量个体才能使网络瘫痪。还有研究使用社会网络指标来识别在袭击策划和协调中最核心的个体,以及发现
超级会员免费看
订阅专栏 解锁全文
53

被折叠的 条评论
为什么被折叠?



