基于图的相关标签聚类方案解析
1. 参数空间探索
在聚类过程中,参数 μ 和 ϵ 的选择是一个关键问题。设置较高的 ϵ 值(其最大值为 1.0)会使核心检测步骤变得非常严格,即检测到的 (μ, ϵ)-核心会很少。同样,较高的 μ 值也会导致检测到的核心数量减少,因为所有度数低于 μ 的节点都会被排除在核心选择过程之外。
为了解决这个问题,我们采用了一种迭代方案,多次使用不同的 μ 和 ϵ 值进行社区种子集选择操作,以全面探索这两个参数的有意义子空间,并检测相应的 (μ, ϵ)-核心。
参数空间探索的具体步骤如下:
1. 从较高的参数值开始,例如 μ0 = 0.5·kmax 和 ϵ0 = 0.9(算法结果对这个初始选择不太敏感),其中 kmax 是图中的最大度数。
2. 识别相应的 (μ, ϵ) 核心和相关的核心集。
3. 逐步放松参数:首先降低 μ,如果 μ 低于某个阈值(如 μmin = 4),则将 ϵ 降低一个小步长(如 0.05),并将 μ 重置为 μ0。
4. 当 μ 和 ϵ 都达到较小值(μ = μmin 且 ϵ = ϵmin)时,终止社区种子集检测步骤。
为了加快参数探索过程,在 μ 参数轴上采用对数采样策略。该参数方案的计算复杂度是原始 SCAN 的倍数,乘法因子 C = sϵ · sμ,其中 sϵ 是 ϵ 轴上的样本数(约为 10),sμ 是 μ 轴上的样本数(约为 log kmax)。
以下是参数空间探索的流程图:
graph LR
A[开始] --> B[设置 μ0 = 0.5·kma
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



