基于最大化统计关联度量的图聚类方法
1. 引言
图聚类是数据挖掘和网络分析中的重要任务,旨在将图中的节点划分为不同的簇,使得同一簇内的节点具有较高的相似性,不同簇之间的节点具有较低的相似性。模块化是一种常用的图聚类目标函数,但优化模块化在所有可能的划分集合上是一个NP难问题,许多研究致力于使用不同策略和启发式方法来近似最大化模块化。然而,模块化方法存在一定的局限性,例如倾向于分裂大的群组,并且难以正确检测低于某个阈值的小社区。
2. 统计关联度量(SAM)优化方法
2.1 SAM及其关系表示
- 基本概念 :假设存在两个分类变量$V^k$和$V^l$,分别有$p_k$和$p_l$个类别。在分类数据分析中,使用维度为$(p_k × p_l)$的列联表$N$来分析两个分类变量之间的关系,其中$N_{uv}$表示同时属于$V^k$的类别$u$和$V^l$的类别$v$的项目数量。
- 核心概念 :核心概念是统计独立性的偏差。当对于所有类别对$(u, v)$,同时观察到$u$和$v$的概率等于观察到$u$的概率与观察到$v$的概率的乘积时,两个分类变量是统计独立的,即$\forall(u, v) : N_{uv}/n = (N_{u.}N_{.v})/n^2$,其中$N_{u.} = \sum_{v} N_{uv}$。偏差越大,两个分类变量之间的关系越强。
- SAM系数 :提出了以下几个系数来衡量两个分类变量之间的关系:
- $B(V^k, V^l) = \sum_{u=
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



