Higher-order clustering in networks摘要

本文介绍了网络聚集系数的概念,提出了高阶聚集系数的定义及其计算方法。通过对比局部和全局聚集系数,阐述了高阶聚集系数在理解网络结构中的重要作用,并讨论了其在随机图模型下的期望值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

##介绍
  网络是复杂系统的基本工具,即使有的网络是稀疏的,依然会有的边趋向于出现在小的聚集结构中,这种聚集结构可以解释为局部演化过程。例如社会网络中聚集结构的出现是源于三角形,其中两个人共有一个朋友,则更可能成为朋友,形成闭三角。聚集系数是度量网络中的三角形数量,定义为三节点中闭合的比例。然而聚集系数是有限制的,只涉及三角形,更多节点的高阶结构也是重要的,四节点就反映词组和蛋白质网络的结构,但是高阶结构的聚集系数是没有的。这里根据测量高阶结构中闭合的比例提出高阶聚集系数。
  首先考虑二节点团,找到与之相连的第三条边和节点,原来的聚集系数就是这种三节点结构中闭合的比例(1)C=6∣K3∣∣W∣C=\frac{6|K_3|}{|W|}\tag{1}C=W6K3(1)
相应可以定义局部聚集系数(2)C(u)=2∣K3(u)∣∣W(u)∣C(u)=\frac{2|K_3(u)|}{|W(u)|}\tag{2}C(u)=W(u)2K3(u)(2)
平均聚集系数(3)C‾=1∣V~∣∑u∈V~C(u)\overline{C}=\frac{1}{|\widetilde{V}|}\sum_{u\in\widetilde{V}}C(u)\tag{3}C=V1uVC(u)(3)
类似的,由lll节点团扩展到l+1l+1l+1节点,则(4)Cl=(l2+l)∣Kl+1∣∣Wl∣C_l=\frac{(l^2+l)|K_{l+1}|}{|W_l|}\tag{4}Cl=Wl(l2+l)Kl+1(4)
局部聚集系数(5)Cl(u)=l∣Kl+1(u)∣∣Wl(u)∣C_l(u)=\frac{l|K_l+1(u)|}{|W_l(u)|}\tag{5}Cl(u)=Wl(u)lKl+1(u)(5)
平均聚集系数(6)C‾l=1∣V~l∣∑u∈V~lCl(u)\overline{C}_l=\frac{1}{|\widetilde{V}_l|}\sum_{u\in\widetilde{V}_l}C_l(u)\tag{6}Cl=Vl1uVlCl(u)(6)
(7)∣Wl(u)∣=∣Kl(u)∣(du−l+1)|W_l(u)|=|K_l(u)|(d_u-l+1)\tag{7}Wl(u)=Kl(u)(dul+1)(7)
其中dud_uduS 节点uuu的度,替换公式(5)(5)(5)则有
(8)Cl(u)=l∣Kl+1(u)∣(du−l+1)∣Kl(u)∣C_l(u)=\frac{l|K_{l+1}(u)|}{(d_u-l+1)|K_l(u)|}\tag{8}Cl(u)=(dul+1)Kl(u)lKl+1(u)(8)
通过枚举所有l+1l+1l+1lll节点的团,能计算局部l th−orderl\ th-orderl thorder的聚集系数,复杂度取决于枚举的时间,使用Chiba和Nishizeki算法,复杂度是O(lal−2m)O(la^{l-2}m)O(lal2m),其中mmm是边数,aaa是一种边密度。aaa可能与m\sqrt{m}m一样大,若lll为常数,则是多项式时间,在至少lll节点上确定是否有一个团是NPCNPCNPC问题。对于全局聚集系数,则有∣Wl∣=∑u∈V∣Wl(u)∣|W_l|=\sum_{u\in V}|W_l(u)|Wl=uVWl(u)
局部聚集系数可以解释成从所有以节点uuu为中心的wedge中随机挑选的一个是闭合的概率(10)Cl(u)=P[w∈Kl+1(u)]C_l(u)=\mathbb{P}[w\in K_{l+1}(u)]\tag{10}Cl(u)=P[wKl+1(u)](10)
定义1-hop邻居图N1(u)N_1(u)N1(u),节点uuu周围相邻的节点组成N1(u)N_1(u)N1(u)的节点,原来的这些节点之间的连边组成N1(u)N_1(u)N1(u)的边。于是公式(8)(8)(8)(11)l∣Kl[N1(U)]∣(du−l+1)∣Kl−1[N1(u)]∣\frac{l|K_l[N_1(U)]|}{(d_u-l+1)|K_{l-1}[N_1(u)]|}\tag{11}(dul+1)Kl1[N1(u)]lKl[N1(U)](11)
其中Kk[N1(u)]K_k[N_1(u)]Kk[N1(u)]记为N1(u)N_1(u)N1(u)中有kkk节点团的个数。如果从N1(u)N_1(u)N1(u)随机选l−1l-1l1节点团,然后再从剩下的点选一个节点vvv,这lll个点组成lll节点团的概率就是(12)Cl(u)=P[K∪{v}∈Kl[N1(u)]]C_l(u)=\mathbb{P}[K\cup\{v\}\in K_l[N_1(u)]]\tag{12}Cl(u)=P[K{v}Kl[N1(u)]](12)
Cl−1(u)⋅Cl(u)C_{l-1}(u)\cdot C_l(u)Cl1(u)Cl(u)l−1l-1l1节点团和两个随机挑选节点组成l+1l+1l+1节点团的概率,则(13)∏j=2lCj(u)=∣Kl[N1(u)]∣(ldu)\prod_{j=2}^lC_j(u)=\frac{|K_l[N_1(u)]|}{(^{d_u}_l)}\tag{13}j=2lCj(u)=(ldu)Kl[N1(u)](13)
这里写图片描述
  对于任意固定l>3l>3l>3(14)0≤Cl(u)≤C2(u)0\leq C_l(u)\leq\sqrt{C_2(u)}\tag{14}0Cl(u)C2(u)(14)
1.存在有限图GGG使下界成立,当C2(u)∈[0,l−2l−1]C_2(u)\in[0,\frac{l-2}{l-1}]C2(u)[0,l1l2]
2.存在有限图GGG使上界成立,当C2(u)∈[0,1]C_2(u)\in[0,1]C2(u)[0,1]
  0≤Cl(u)0\leq C_l(u)0Cl(u)是显然的,当N1(u)N_1(u)N1(u)如上图2所示时,C2(u)=l−2l−1C_2(u)=\frac{l-2}{l-1}C2(u)=l1l2,通过删去一些边可使范围在[0,l−2l−1][0,\frac{l-2}{l-1}][0,l1l2]。定义(15)δl[N1(u)]=∣Kl[N1(u)]∣(ldu)\delta_l[N_1(u)]=\frac{|K_l[N_1(u)]|}{(^{d_u}_l)}\tag{15}δl[N1(u)]=(ldu)Kl[N1(u)](15)记为N1(u)N_1(u)N1(u)l−cliquel-cliquelclique密度,由文献中的定理则有δl[N1(u)]≤[δl−1[N1(u)]]l/(l−1)\delta_l[N_1(u)]\leq[\delta_{l-1}[N_1(u)]]^{l/(l-1)}δl[N1(u)][δl1[N1(u)]]l/(l1)
δ[N1(u)]≤[δ2[N1(u)]](l−1)/2\delta[N_1(u)]\leq[\delta_2[N_1(u)]]^{(l-1)/2}δ[N1(u)][δ2[N1(u)]](l1)/2
再由公式(8)(8)(8)
Cl(u)≤[δl−1[N1(u)]]1l−1≤δ2[N1(u)]=C2(u)C_l(u)\leq[\delta_{l-1}[N_1(u)]]^{\frac{1}{l-1}}\leq\sqrt{\delta_2[N_1(u)]}=\sqrt{C_2(u)}Cl(u)[δl1[N1(u)]]l11δ2[N1(u)]=C2(u)
N1(u)N_1(u)N1(u)ccc个节点的cliquecliquecliquebbb个孤立节点组成,当l=2l=2l=2时有
Cl(u)=(2c)(2c+b)=(c−1)c(c+b−1)(c+b)→(cc+b)2C_l(u)=\frac{(^c_2)}{(^{c+b}_2)}=\frac{(c-1)c}{(c+b-1)(c+b)}\rightarrow(\frac{c}{c+b})^2Cl(u)=(2c+b)(2c)=(c+b1)(c+b)(c1)c(c+bc)2
3≤l≤c3\leq l\leq c3lc时有
Cl(u)=l(lc)(c+b−l+1)(l−1c)=c−l+1c+b−l+1→cc+bC_l(u)=\frac{l(^c_l)}{(c+b-l+1)(^c_{l-1})}=\frac{c-l+1}{c+b-l+1}\rightarrow\frac{c}{c+b}Cl(u)=(c+bl+1)(l1c)l(lc)=c+bl+1cl+1c+bc
du→∞d_u\rightarrow\inftydu时有C2(u)∈[0,1]C_2(u)\in[0,1]C2(u)[0,1],且Cl(u)→C2(u)C_l(u)\rightarrow\sqrt{C_2(u)}Cl(u)C2(u)
  现在来看高阶聚类系数在随机图模型的情况,其中每条边都有独立的概率ppp,为了使图中至少有一个l−wedgel-wedgelwedge,这里假设lll比较小,设pppnnn都比较大,则对于任意ϵ>0\epsilon>0ϵ>0,clique的节点数量小于(2+ϵ)log n/log(1/p)(2+\epsilon)log\ n/log(1/p)(2+ϵ)log n/log(1/p)。在Gn,pG_{n,p}Gn,p模型中,当且仅当l−cliquel-cliquelclique中有l−1l-1l1条边出现并有另外一节点与之相邻时,则形成l−wedgel-wedgelwedge,这l−1l-1l1条边的存在概率与pl−1p^{l-1}pl1有关。
  令GGG为随机图模型Gn,pG_{n,p}Gn,p,对于常数lll
(1) EG[Cl]=pl−1(1)\ \mathbb{E}_G[C_l]=p^{l-1}(1) EG[Cl]=pl1
(2) EG[Cl(u)∣Wl(u)>0]=pl−1(2)\ \mathbb{E}_G[C_l(u)|W_l(u)>0]=p^{l-1}(2) EG[Cl(u)Wl(u)>0]=pl1
(3) EG[C‾l]=pl−1(3)\ \mathbb{E}_G[\overline{C}_l]=p^{l-1}(3) EG[Cl]=pl1
  E[Cl]=EG[EWl[Cl∣Wl]]         =E[EWl[1∣Wl∣∑w∈WlP[w is closed]]]         =EG[EWl[1∣Wl∣∑w∈Wlpl−1]]         =EG[pl−1]         =pl−1\mathbb{E}[C_l]=\mathbb{E}_G[\mathbb{E}_{W_l}[C_l|W_l]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}[\mathbb{E}_{W_l}[\frac{1}{|W_l|}\sum_{w\in W_l}\mathbb{P}[w\ is\ closed]]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}_G[\mathbb{E}_{W_l}[\frac{1}{|W_l|}\sum_{w\in W_l}p^{l-1}]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}_G[p^{l-1}]\\ \ \ \ \ \ \ \ \ \ =p^{l-1}E[Cl]=EG[EWl[ClWl]]         =E[EWl[Wl1wWlP[w is closed]]]         =EG[EWl[Wl1wWlpl1]]         =EG[pl1]         =pl1
对于比较小的lll,第二个等号成立,第三个等号成立是因为当且仅当l−1l-1l1条边存在时,l-wedge是闭合的。第二部分的证明本质上是相同的,不同的是条件期望是基于所有可能的Wl(u)>0W_l(u)>0Wl(u)>0V~\tilde{V}V~是至少在一个l-wedge中的节点集合,基于V~\tilde{V}V~的条件期望,加上第二部分结论,能有第三部分结果。以上的全局、局部和平均聚集系数随lll增大而指数减小。
GGGGn,pG_{n,p}Gn,p模型的随机图,对于常数lll
EG[Cl(u)∣C2(u),Wl(u)>0]=[C2(u)−[1−C2(u)]O(1/du2)]l−1≈[C2(u)]l−1\mathbb{E}_G[C_l(u)|C_2(u),W_l(u)>0]=[C_2(u)-[1-C_2(u)]O(1/d_u^2)]^{l-1}\approx[C_2(u)]^{l-1}EG[Cl(u)C2(u),Wl(u)>0]=[C2(u)[1C2(u)]O(1/du2)]l1[C2(u)]l1
基于Wl(u)>0W_l(u)>0Wl(u)>0的条件期望
EG[Cl(u)∣C2(u),Wl(u)>0]=EG[EWl(u)>0[Cl(u)∣C2(u),Wl(u)]]=EG[EWl(u)>0[1∣Wl(u)∣∑w∈Wl(u)P[w closed ∣ C2(u)]]]\mathbb{E}_G[C_l(u)|C_2(u),W_l(u)>0]=\mathbb{E}_G[\mathbb{E}_{W_l(u)>0}[C_l(u)|C_2(u),W_l(u)]]=\mathbb{E}_G[\mathbb{E}_{W_l(u)>0}[\frac{1}{|W_l(u)|}\sum_{w\in W_l(u)}\mathbb{P}[w\ closed\ |\ C_2(u)]]]EG[Cl(u)C2(u),Wl(u)>0]=EG[EWl(u)>0[Cl(u)C2(u),Wl(u)]]=EG[EWl(u)>0[Wl(u)1wWl(u)P[w closed  C2(u)]]]
注意到N1(u)N_1(u)N1(u)m=C2(u)(2du)m=C_2(u)(_2^{d_u})m=C2(u)(2du)条边,对于w∈Wl(u)w\in W_l(u)wWl(u)来说,其中Wl(u)W_l(u)Wl(u)就有(2l−1)(_2^{l-1})(2l1)条边,剩余q=m−(2l−1)q=m-(_2^{l-1})q=m(2l1)条边,在剩下的r=(2du)−(2l−1)r=(_2^{d_u})-(_2^{l-1})r=(2du)(2l1)个节点对中随机出现。这些边出现的可能有(qr)(_q^r)(qr)种,而www要形成闭合的,则有(q−l+1r−l+1)(_{q-l+1}^{r-l+1})(ql+1rl+1)种,于是
P[w is closed ∣C2(u)]=(q−l+1r−l+1)(qr)=(r−l+1)!q!(q−l+1)!r!=(q−l+2)(q−l+3)…q(r−l+2)(r−l+3)…r\mathbb{P}[w\ is\ closed\ |C_2(u)]=\frac{(_{q-l+1}^{r-l+1})}{(_q^r)}=\frac{(r-l+1)!q!}{(q-l+1)!r!}=\frac{(q-l+2)(q-l+3)\dots q}{(r-l+2)(r-l+3)\dots r}P[w is closed C2(u)]=(qr)(ql+1rl+1)=(ql+1)!r!(rl+1)!q!=(rl+2)(rl+3)r(ql+2)(ql+3)q
对于任意小的非负整数kkkq−kr−k=C2(u)⋅(2du)−(2l−1)−k(2du)−(2l−1)−k=C2(u)−[1−C2(u)][(2l−1)+k(2du)−(2l−1)−k]=C2(u)−[1−C2(u)]O(1/du2)\frac{q-k}{r-k}=\frac{C_2(u)\cdot(_2^{d_u})-(_2^{l-1})-k}{(_2^{d_u})-(_2^{l-1})-k}=C_2(u)-[1-C_2(u)][\frac{(_2^{l-1})+k}{(_2^{d_u})-(_2^{l-1})-k}]=C_2(u)-[1-C_2(u)]O(1/d_u^2)rkqk=(2du)(2l1)kC2(u)(2du)(2l1)k=C2(u)[1C2(u)][(2du)(2l1)k(2l1)+k]=C2(u)[1C2(u)]O(1/du2)
C2(u)→1C_2(u)\rightarrow 1C2(u)1du→∞d_u\rightarrow \inftydu时,上式趋于[C2(u)]l−1[C_2(u)]^{l-1}[C2(u)]l1
上式结果是基于随机图的结果,但是实际网络可能与此不同,如果实际计算的Cl(u)≈[C2(u)]l−1C_l(u)\approx[C_2(u)]^{l-1}Cl(u)[C2(u)]l1,其中C2(u)C_2(u)C2(u)比较大,则类似于随机图,节点uuu的邻居节点是密集但随机的,若C2(u)C_2(u)C2(u)比较大,Cl(u)>[C2(ul−1)]C_l(u)>[C_2(u^{l-1})]Cl(u)>[C2(ul1)],则是密集且有结构的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值