1、大偏差原理
网络过程中大偏差原理(Large Deviation Principle, LDP)的基础。大偏差理论是概率论中的一个分支,它研究的是随机变量偏离其典型行为的概率。对于网络流量和图结构而言,大偏差原理提供了一种方法来量化异常事件发生的概率,并且可以用于检测这些异常。
A. 大偏差原理简介
异常检测阶段(第一阶段)基于对网络过程的分析,例如网络流和表示节点交互的图的度数。从一簇概率测度 { μ(n)}\{\mu^{(n)}\}{ μ(n)} 的大偏差原理 (LDP) 的形式定义开始。
定义 1:对于每个闭集 BBB 的概率向量,
lim supn→∞1nlogPn(μ(n)∈B)≤−infμ∈BI(μ) \limsup_{n \to \infty} \frac{1}{n} \log P_n \left(\mu^{(n)} \in B\right) \leq - \inf_{\mu \in B} I(\mu) n→∞limsupn1logPn(μ(n)∈B)≤−μ∈BinfI(μ)
lim infn→∞1nlogPn(μ(n)∈B)≥−infμ∈B∘I(μ) \liminf_{n \to \infty} \frac{1}{n} \log P_n \left(\mu^{(n)} \in B\right) \geq - \inf_{\mu \in B^\circ} I(\mu) n→∞liminfn1logPn(μ(n)∈B)≥−μ∈B∘infI(μ)
其中 B∘B^\circB∘ 表示 BBB 的内部,PnP_nPn 是概率测度。
更直观地说,定义 1 表明当 nnn 足够大时,分布 PnP_nPn 的行为如下:
Pn(μ(n)≈μ)≍e−nI(μ)(1) P_n \left(\mu^{(n)} \approx \mu\right) \asymp e^{-nI(\mu)} \tag{1} Pn(μ(n)≈μ)≍e−nI(μ)(1)
其中函数 I(μ)I(\mu)I(μ) 描述了这种概率的指数衰减率,并被称为速率函数。
B. 离散随机变量的大偏差原理
给定一个离散随机变量 XXX,其字母表为 Σ=(σ1,…,σ∣Σ∣)\Sigma = (\sigma_1, \ldots, \sigma_{|\Sigma|})Σ=(σ1,…,σ∣Σ∣),XXX 的概率分布可以写成向量 p=(p1,…,p∣Σ∣)p = (p_1, \ldots, p_{|\Sigma|})p=(p1,…,p∣Σ∣),其中 pip_ipi 是 XXX 等于 σi\sigma_iσi 的概率。
给定 XXX 的 nnn 个样本 X={
x1,…,xn}X = \{x_1, \ldots, x_n\}X={
x1,…,xn},经验分布是向量 μ(n)=(μ1(n),…,μ∣Σ∣(n))\mu^{(n)} = (\mu^{(n)}_1, \ldots, \mu^{(n)}_{|\Sigma|})μ(n)=(μ1(n),…,μ∣Σ∣(n)),其中
μi(n)=1n∑j=1n1(xj=σi) \mu^{(n)}_i = \frac{1}{n} \sum_{j=1}^n 1(x_j = \sigma_i) μi(n)=n1j=1∑n1(xj=σi)
μ(n)\mu^{(n)}μ(n) 满足具有速率函数
I(μ)=D(μ∥p)(2) I(\mu) = D(\mu \| p) \tag{2} I(μ)=D(μ∥p)(2)
的大偏差原理,其中
D(μ∥p)=∑iμilog(μipi) D(\mu \| p) = \sum_i \mu_i \log \left( \frac{\mu_i}{p_i} \right) D(μ∥p)=i∑μilog(piμi)
是两个概率向量之间的 Kullback-Leibler (KL) 散度。
C. 随机图度分布的大偏差原理
设 Gn\mathbb{G}_nGn 表示包含 nnn 个顶点的所有无向图的空间。对于任何图 G∈GnG \in \mathbb{G}_nG∈Gn,令 d=(d1,…,dn)\mathbf{d} = (d_1, \ldots, d_n)d=(d1,…,dn) 表示 GGG 的标记度序列,其中 did_idi 表示第 iii 个节点的度。令 m=(1/2)∑j=1ndjm = (1/2) \sum_{j=1}^n d_jm=(1/2)∑j=1ndj 表示图 GGG 中边的数量。我们假设任意两个节点之间最多由一条边连接,这意味着在 GGG 中任一节点的度小于 nnn。
对于 0≤i≤n−10 \leq i \leq n-10≤i≤n−1,令 hi=∑j=1n1(dj=i)h_i = \sum_{j=1}^n 1(d_j = i)hi=j=1∑n1(dj=i) 表示 GGG 中度为 iii 的顶点数量,其中 1(⋅)1(\cdot)1(⋅) 是指示函数。因此,h=(h0,…,hn−1)\mathbf{h} = (h_0, \ldots, h_{n-1})h=(h0,…,hn−1) 不依赖于顶点排序,将被称作图 GGG 的度频率向量。度序列 d\mathbf{d}d 的经验分布,由 μ(n)\mu^{(n)}μ(n) 定义,是在 N0=N∪{
0}\mathbb{N}_0 = \mathbb{N} \cup \{0\}N0=N∪{
0} 上的概率测度,它在 iii 处赋予质量 hi/nh_i/nhi/n,对于 0≤i≤n−10 \leq i \leq n-10≤i≤n−1。
D. Erdo˝s-Rényi 模型
在 Erdo˝s-Rényi (ER) 模型中,图是通过随机连接节点来构造的。每条边以概率 ppp 独立地包含在图中。我们用 G(n,p)G(n, p)G(n,p) 来表示这个模型。任何特定顶点 vvv 的度数分布是二项分布。具体来说,
P(dv=k)=(n−1k)pk(1−p)n−1−k P(d_v = k) = \binom{n-1}{k} p^k (1-p)^{n-1-k} P(dv=k)=(kn−1)pk(1−p)n−1−k
当节点数 n→∞n \to \inftyn→∞ 且 npnpnp 保持常数时,二项分布收敛到泊松分布。令 λ=np\lambda = npλ=np 表示这个常数。那么,在极限情况下,一个节点的度数为 kkk 的概率等于
PER(k;λ)=λke−λk!(3) P_{\text{ER}}(k; \lambda) = \frac{\lambda^k e^{-\lambda}}{k!} \tag{3} PER(k;λ)=k!λke−λ(3)
这与节点标签无关。令 pλ=(pλ0,pλ1,…,pλ∞)p_\lambda = (p_{\lambda 0}, p_{\lambda 1}, \ldots, p_{\lambda \infty})pλ=(pλ0,pλ1,…,pλ∞) 为参数为 λ\lambdaλ 的泊松分布视为向量。
设 P(N0)P(\mathbb{N}_0)P(N0) 为定义在 N0\mathbb{N}_0N0 上的所有概率测度的空间。我们将 P(N0)P(\mathbb{N}_0)P(N0) 中的任何概率测度 μ\muμ 视为无限向量 μ=(μ0,μ1,…,μ∞)\mu = (\mu_0, \mu_1, \ldots, \mu_\infty)μ=(μ0,μ1,…,μ∞)。令 S={ μ∈P(N0)∣μˉ:=∑i=0∞iμi<∞}S = \{\mu \in P(\mathbb{N}_0) \mid \bar{\mu} := \sum_{i=0}^\infty i \mu_i < \infty\}S={ μ∈P(N0)∣μˉ:=∑i=0∞iμi<∞} 为所有具有有限均值的 N0\mathbb{N}_0N0 上的概率测度的集合。
容易验证 pλ∈Sp_\lambda \in Spλ∈S。令 PnP_nPn 表示 ER 模型 G(n,λ/n)G(n, \lambda/n)G(n,λ/n) 在空间 Gn\mathbb{G}_nGn 上的度分布。
参考文献 [12] 证明了对于经验度分布 μ(n)\mu^{(n)}μ(n),ER 模型在 SSS 的子集上满足大偏差原理,其速率函数如下定义。
定义 2:对于 ER 模型 G(n,λ/n)G(n, \lambda/n)G(n,λ/n),定义速率函数 IER:S→[−∞,∞]I_{\text{ER}}: S \to [-\infty, \infty]IER:S→[−∞,∞] 为
IER(μ;λ)=D(μ∥pλ)+12(μˉ−λ)+μˉ2logλ−μˉ2logμˉ I_{\text{ER}}(\mu; \lambda) = D(\mu \| p_\lambda) + \frac{1}{2} (\bar{\mu} - \lambda) + \frac{\bar{\mu}}{2} \log \lambda - \frac{\bar{\mu}}{2} \log \bar{\mu} IER(μ;λ)=D(μ∥pλ)+21(μˉ−λ)+2μˉlogλ−2μˉlogμˉ
其中
D(μ∥pλ)=∑iμilog(μipλi) D(\mu \| p_\lambda) = \sum_i \mu_i \log \left( \frac{\mu_i}{p_{\lambda i}} \right) D(μ∥pλ)=i∑μilog(pλiμi)
是相对于 pλp_\lambdapλ 的 KL 散度。
E. 偏好依附模型 (Preferential Attachment Model)
偏好依附 (PA) 过程是随着时间演化的图网络,通过逐步将新节点连接到现有节点来形成。每个现有节点被连接的概率取决于其度数 [13]。我们将 PA 过程视为一系列随机图 G={ G1,...,Gn}G = \{G_1, ..., G_n\}G={ G1,...,Gn},其中 GjG_jGj 是时间 jjj 时的随机图。我们假设每次只附加一个新节点,即对于所有 j=1,...,n−1j = 1, ..., n - 1

最低0.47元/天 解锁文章
1694

被折叠的 条评论
为什么被折叠?



