##介绍
网络是复杂系统的基本工具,即使有的网络是稀疏的,依然会有的边趋向于出现在小的聚集结构中,这种聚集结构可以解释为局部演化过程。例如社会网络中聚集结构的出现是源于三角形,其中两个人共有一个朋友,则更可能成为朋友,形成闭三角。聚集系数是度量网络中的三角形数量,定义为三节点中闭合的比例。然而聚集系数是有限制的,只涉及三角形,更多节点的高阶结构也是重要的,四节点就反映词组和蛋白质网络的结构,但是高阶结构的聚集系数是没有的。这里根据测量高阶结构中闭合的比例提出高阶聚集系数。
首先考虑二节点团,找到与之相连的第三条边和节点,原来的聚集系数就是这种三节点结构中闭合的比例(1)C=6∣K3∣∣W∣C=\frac{6|K_3|}{|W|}\tag{1}C=∣W∣6∣K3∣(1)
相应可以定义局部聚集系数(2)C(u)=2∣K3(u)∣∣W(u)∣C(u)=\frac{2|K_3(u)|}{|W(u)|}\tag{2}C(u)=∣W(u)∣2∣K3(u)∣(2)
平均聚集系数(3)C‾=1∣V~∣∑u∈V~C(u)\overline{C}=\frac{1}{|\widetilde{V}|}\sum_{u\in\widetilde{V}}C(u)\tag{3}C=∣V∣1u∈V∑C(u)(3)
类似的,由lll节点团扩展到l+1l+1l+1节点,则(4)Cl=(l2+l)∣Kl+1∣∣Wl∣C_l=\frac{(l^2+l)|K_{l+1}|}{|W_l|}\tag{4}Cl=∣Wl∣(l2+l)∣Kl+1∣(4)
局部聚集系数(5)Cl(u)=l∣Kl+1(u)∣∣Wl(u)∣C_l(u)=\frac{l|K_l+1(u)|}{|W_l(u)|}\tag{5}Cl(u)=∣Wl(u)∣l∣Kl+1(u)∣(5)
平均聚集系数(6)C‾l=1∣V~l∣∑u∈V~lCl(u)\overline{C}_l=\frac{1}{|\widetilde{V}_l|}\sum_{u\in\widetilde{V}_l}C_l(u)\tag{6}Cl=∣Vl∣1u∈Vl∑Cl(u)(6)
(7)∣Wl(u)∣=∣Kl(u)∣(du−l+1)|W_l(u)|=|K_l(u)|(d_u-l+1)\tag{7}∣Wl(u)∣=∣Kl(u)∣(du−l+1)(7)
其中dud_uduS 节点uuu的度,替换公式(5)(5)(5)则有
(8)Cl(u)=l∣Kl+1(u)∣(du−l+1)∣Kl(u)∣C_l(u)=\frac{l|K_{l+1}(u)|}{(d_u-l+1)|K_l(u)|}\tag{8}Cl(u)=(du−l+1)∣Kl(u)∣l∣Kl+1(u)∣(8)
通过枚举所有l+1l+1l+1和lll节点的团,能计算局部l th−orderl\ th-orderl th−order的聚集系数,复杂度取决于枚举的时间,使用Chiba和Nishizeki算法,复杂度是O(lal−2m)O(la^{l-2}m)O(lal−2m),其中mmm是边数,aaa是一种边密度。aaa可能与m\sqrt{m}m一样大,若lll为常数,则是多项式时间,在至少lll节点上确定是否有一个团是NPCNPCNPC问题。对于全局聚集系数,则有∣Wl∣=∑u∈V∣Wl(u)∣|W_l|=\sum_{u\in V}|W_l(u)|∣Wl∣=∑u∈V∣Wl(u)∣。
局部聚集系数可以解释成从所有以节点uuu为中心的wedge中随机挑选的一个是闭合的概率(10)Cl(u)=P[w∈Kl+1(u)]C_l(u)=\mathbb{P}[w\in K_{l+1}(u)]\tag{10}Cl(u)=P[w∈Kl+1(u)](10)
定义1-hop邻居图N1(u)N_1(u)N1(u),节点uuu周围相邻的节点组成N1(u)N_1(u)N1(u)的节点,原来的这些节点之间的连边组成N1(u)N_1(u)N1(u)的边。于是公式(8)(8)(8)为(11)l∣Kl[N1(U)]∣(du−l+1)∣Kl−1[N1(u)]∣\frac{l|K_l[N_1(U)]|}{(d_u-l+1)|K_{l-1}[N_1(u)]|}\tag{11}(du−l+1)∣Kl−1[N1(u)]∣l∣Kl[N1(U)]∣(11)
其中Kk[N1(u)]K_k[N_1(u)]Kk[N1(u)]记为N1(u)N_1(u)N1(u)中有kkk节点团的个数。如果从N1(u)N_1(u)N1(u)随机选l−1l-1l−1节点团,然后再从剩下的点选一个节点vvv,这lll个点组成lll节点团的概率就是(12)Cl(u)=P[K∪{v}∈Kl[N1(u)]]C_l(u)=\mathbb{P}[K\cup\{v\}\in K_l[N_1(u)]]\tag{12}Cl(u)=P[K∪{v}∈Kl[N1(u)]](12)
Cl−1(u)⋅Cl(u)C_{l-1}(u)\cdot C_l(u)Cl−1(u)⋅Cl(u)是l−1l-1l−1节点团和两个随机挑选节点组成l+1l+1l+1节点团的概率,则(13)∏j=2lCj(u)=∣Kl[N1(u)]∣(ldu)\prod_{j=2}^lC_j(u)=\frac{|K_l[N_1(u)]|}{(^{d_u}_l)}\tag{13}j=2∏lCj(u)=(ldu)∣Kl[N1(u)]∣(13)
对于任意固定l>3l>3l>3,(14)0≤Cl(u)≤C2(u)0\leq C_l(u)\leq\sqrt{C_2(u)}\tag{14}0≤Cl(u)≤C2(u)(14)
1.存在有限图GGG使下界成立,当C2(u)∈[0,l−2l−1]C_2(u)\in[0,\frac{l-2}{l-1}]C2(u)∈[0,l−1l−2]。
2.存在有限图GGG使上界成立,当C2(u)∈[0,1]C_2(u)\in[0,1]C2(u)∈[0,1]。
0≤Cl(u)0\leq C_l(u)0≤Cl(u)是显然的,当N1(u)N_1(u)N1(u)如上图2所示时,C2(u)=l−2l−1C_2(u)=\frac{l-2}{l-1}C2(u)=l−1l−2,通过删去一些边可使范围在[0,l−2l−1][0,\frac{l-2}{l-1}][0,l−1l−2]。定义(15)δl[N1(u)]=∣Kl[N1(u)]∣(ldu)\delta_l[N_1(u)]=\frac{|K_l[N_1(u)]|}{(^{d_u}_l)}\tag{15}δl[N1(u)]=(ldu)∣Kl[N1(u)]∣(15)记为N1(u)N_1(u)N1(u)的l−cliquel-cliquel−clique密度,由文献中的定理则有δl[N1(u)]≤[δl−1[N1(u)]]l/(l−1)\delta_l[N_1(u)]\leq[\delta_{l-1}[N_1(u)]]^{l/(l-1)}δl[N1(u)]≤[δl−1[N1(u)]]l/(l−1)
δ[N1(u)]≤[δ2[N1(u)]](l−1)/2\delta[N_1(u)]\leq[\delta_2[N_1(u)]]^{(l-1)/2}δ[N1(u)]≤[δ2[N1(u)]](l−1)/2
再由公式(8)(8)(8)知
Cl(u)≤[δl−1[N1(u)]]1l−1≤δ2[N1(u)]=C2(u)C_l(u)\leq[\delta_{l-1}[N_1(u)]]^{\frac{1}{l-1}}\leq\sqrt{\delta_2[N_1(u)]}=\sqrt{C_2(u)}Cl(u)≤[δl−1[N1(u)]]l−11≤δ2[N1(u)]=C2(u)
若N1(u)N_1(u)N1(u)由ccc个节点的cliquecliqueclique和bbb个孤立节点组成,当l=2l=2l=2时有
Cl(u)=(2c)(2c+b)=(c−1)c(c+b−1)(c+b)→(cc+b)2C_l(u)=\frac{(^c_2)}{(^{c+b}_2)}=\frac{(c-1)c}{(c+b-1)(c+b)}\rightarrow(\frac{c}{c+b})^2Cl(u)=(2c+b)(2c)=(c+b−1)(c+b)(c−1)c→(c+bc)2
当3≤l≤c3\leq l\leq c3≤l≤c时有
Cl(u)=l(lc)(c+b−l+1)(l−1c)=c−l+1c+b−l+1→cc+bC_l(u)=\frac{l(^c_l)}{(c+b-l+1)(^c_{l-1})}=\frac{c-l+1}{c+b-l+1}\rightarrow\frac{c}{c+b}Cl(u)=(c+b−l+1)(l−1c)l(lc)=c+b−l+1c−l+1→c+bc
当du→∞d_u\rightarrow\inftydu→∞时有C2(u)∈[0,1]C_2(u)\in[0,1]C2(u)∈[0,1],且Cl(u)→C2(u)C_l(u)\rightarrow\sqrt{C_2(u)}Cl(u)→C2(u)。
现在来看高阶聚类系数在随机图模型的情况,其中每条边都有独立的概率ppp,为了使图中至少有一个l−wedgel-wedgel−wedge,这里假设lll比较小,设ppp和nnn都比较大,则对于任意ϵ>0\epsilon>0ϵ>0,clique的节点数量小于(2+ϵ)log n/log(1/p)(2+\epsilon)log\ n/log(1/p)(2+ϵ)log n/log(1/p)。在Gn,pG_{n,p}Gn,p模型中,当且仅当l−cliquel-cliquel−clique中有l−1l-1l−1条边出现并有另外一节点与之相邻时,则形成l−wedgel-wedgel−wedge,这l−1l-1l−1条边的存在概率与pl−1p^{l-1}pl−1有关。
令GGG为随机图模型Gn,pG_{n,p}Gn,p,对于常数lll,
(1) EG[Cl]=pl−1(1)\ \mathbb{E}_G[C_l]=p^{l-1}(1) EG[Cl]=pl−1
(2) EG[Cl(u)∣Wl(u)>0]=pl−1(2)\ \mathbb{E}_G[C_l(u)|W_l(u)>0]=p^{l-1}(2) EG[Cl(u)∣Wl(u)>0]=pl−1
(3) EG[C‾l]=pl−1(3)\ \mathbb{E}_G[\overline{C}_l]=p^{l-1}(3) EG[Cl]=pl−1
E[Cl]=EG[EWl[Cl∣Wl]] =E[EWl[1∣Wl∣∑w∈WlP[w is closed]]] =EG[EWl[1∣Wl∣∑w∈Wlpl−1]] =EG[pl−1] =pl−1\mathbb{E}[C_l]=\mathbb{E}_G[\mathbb{E}_{W_l}[C_l|W_l]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}[\mathbb{E}_{W_l}[\frac{1}{|W_l|}\sum_{w\in W_l}\mathbb{P}[w\ is\ closed]]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}_G[\mathbb{E}_{W_l}[\frac{1}{|W_l|}\sum_{w\in W_l}p^{l-1}]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}_G[p^{l-1}]\\ \ \ \ \ \ \ \ \ \ =p^{l-1}E[Cl]=EG[EWl[Cl∣Wl]] =E[EWl[∣Wl∣1∑w∈WlP[w is closed]]] =EG[EWl[∣Wl∣1∑w∈Wlpl−1]] =EG[pl−1] =pl−1
对于比较小的lll,第二个等号成立,第三个等号成立是因为当且仅当l−1l-1l−1条边存在时,l-wedge是闭合的。第二部分的证明本质上是相同的,不同的是条件期望是基于所有可能的Wl(u)>0W_l(u)>0Wl(u)>0。V~\tilde{V}V~是至少在一个l-wedge中的节点集合,基于V~\tilde{V}V~的条件期望,加上第二部分结论,能有第三部分结果。以上的全局、局部和平均聚集系数随lll增大而指数减小。
GGG是Gn,pG_{n,p}Gn,p模型的随机图,对于常数lll,
EG[Cl(u)∣C2(u),Wl(u)>0]=[C2(u)−[1−C2(u)]O(1/du2)]l−1≈[C2(u)]l−1\mathbb{E}_G[C_l(u)|C_2(u),W_l(u)>0]=[C_2(u)-[1-C_2(u)]O(1/d_u^2)]^{l-1}\approx[C_2(u)]^{l-1}EG[Cl(u)∣C2(u),Wl(u)>0]=[C2(u)−[1−C2(u)]O(1/du2)]l−1≈[C2(u)]l−1
基于Wl(u)>0W_l(u)>0Wl(u)>0的条件期望
EG[Cl(u)∣C2(u),Wl(u)>0]=EG[EWl(u)>0[Cl(u)∣C2(u),Wl(u)]]=EG[EWl(u)>0[1∣Wl(u)∣∑w∈Wl(u)P[w closed ∣ C2(u)]]]\mathbb{E}_G[C_l(u)|C_2(u),W_l(u)>0]=\mathbb{E}_G[\mathbb{E}_{W_l(u)>0}[C_l(u)|C_2(u),W_l(u)]]=\mathbb{E}_G[\mathbb{E}_{W_l(u)>0}[\frac{1}{|W_l(u)|}\sum_{w\in W_l(u)}\mathbb{P}[w\ closed\ |\ C_2(u)]]]EG[Cl(u)∣C2(u),Wl(u)>0]=EG[EWl(u)>0[Cl(u)∣C2(u),Wl(u)]]=EG[EWl(u)>0[∣Wl(u)∣1w∈Wl(u)∑P[w closed ∣ C2(u)]]]
注意到N1(u)N_1(u)N1(u)有m=C2(u)(2du)m=C_2(u)(_2^{d_u})m=C2(u)(2du)条边,对于w∈Wl(u)w\in W_l(u)w∈Wl(u)来说,其中Wl(u)W_l(u)Wl(u)就有(2l−1)(_2^{l-1})(2l−1)条边,剩余q=m−(2l−1)q=m-(_2^{l-1})q=m−(2l−1)条边,在剩下的r=(2du)−(2l−1)r=(_2^{d_u})-(_2^{l-1})r=(2du)−(2l−1)个节点对中随机出现。这些边出现的可能有(qr)(_q^r)(qr)种,而www要形成闭合的,则有(q−l+1r−l+1)(_{q-l+1}^{r-l+1})(q−l+1r−l+1)种,于是
P[w is closed ∣C2(u)]=(q−l+1r−l+1)(qr)=(r−l+1)!q!(q−l+1)!r!=(q−l+2)(q−l+3)…q(r−l+2)(r−l+3)…r\mathbb{P}[w\ is\ closed\ |C_2(u)]=\frac{(_{q-l+1}^{r-l+1})}{(_q^r)}=\frac{(r-l+1)!q!}{(q-l+1)!r!}=\frac{(q-l+2)(q-l+3)\dots q}{(r-l+2)(r-l+3)\dots r}P[w is closed ∣C2(u)]=(qr)(q−l+1r−l+1)=(q−l+1)!r!(r−l+1)!q!=(r−l+2)(r−l+3)…r(q−l+2)(q−l+3)…q
对于任意小的非负整数kkk,q−kr−k=C2(u)⋅(2du)−(2l−1)−k(2du)−(2l−1)−k=C2(u)−[1−C2(u)][(2l−1)+k(2du)−(2l−1)−k]=C2(u)−[1−C2(u)]O(1/du2)\frac{q-k}{r-k}=\frac{C_2(u)\cdot(_2^{d_u})-(_2^{l-1})-k}{(_2^{d_u})-(_2^{l-1})-k}=C_2(u)-[1-C_2(u)][\frac{(_2^{l-1})+k}{(_2^{d_u})-(_2^{l-1})-k}]=C_2(u)-[1-C_2(u)]O(1/d_u^2)r−kq−k=(2du)−(2l−1)−kC2(u)⋅(2du)−(2l−1)−k=C2(u)−[1−C2(u)][(2du)−(2l−1)−k(2l−1)+k]=C2(u)−[1−C2(u)]O(1/du2)
当C2(u)→1C_2(u)\rightarrow 1C2(u)→1且du→∞d_u\rightarrow \inftydu→∞时,上式趋于[C2(u)]l−1[C_2(u)]^{l-1}[C2(u)]l−1。
上式结果是基于随机图的结果,但是实际网络可能与此不同,如果实际计算的Cl(u)≈[C2(u)]l−1C_l(u)\approx[C_2(u)]^{l-1}Cl(u)≈[C2(u)]l−1,其中C2(u)C_2(u)C2(u)比较大,则类似于随机图,节点uuu的邻居节点是密集但随机的,若C2(u)C_2(u)C2(u)比较大,Cl(u)>[C2(ul−1)]C_l(u)>[C_2(u^{l-1})]Cl(u)>[C2(ul−1)],则是密集且有结构的。
Higher-order clustering in networks摘要
最新推荐文章于 2023-01-13 02:45:00 发布