网页数据监测的多面剖析
1. 基于超链接的网页质量指标统计分布
在网页质量评估中,PageRank是一个重要概念。通过将逆出度矩阵与PageRank向量进行重复相乘,可得到后者的主特征向量。PageRank可视为网页上随机游走所诱导的页面稳态概率分布,代表“随机冲浪者”访问某页面的时间比例。
PageRank向量($R_n^i$)的稳态分布完全取决于参数$d$和逆出度右手向量。我们对相关方程进行简化,旨在找出$n = 0$时该向量的分布。$R_1^i$的分布能让我们了解$n \to \infty$时的稳态分布,可通过对初始分布应用上述计算得到。初始时,假设PageRank均匀分布,即对于所有$i$($1\leq i\leq k$),$R_0^i = 1/k$。
将方程中的$R_i$、$X_j$和$N_i$分别解释为表示第$i$个页面的PageRank、第$j$个页面的出度和第$i$个页面的入度的随机变量。虽然$X_j$和$N_i$分布相同,但$X_j$是连续的,而$N_i$是离散的。所有$i$对应的$R_i$分布相同,$X_j$和$N_i$表示的入度和出度也是如此。因此,我们分别用$f_R(r)$、$f_X(x)$和$f_N(n)$表示这些随机变量集的共同概率密度。当前问题是,根据方程所表示的$R_i$与$X_j$和$N_i$的关系,求出密度$f_R(r)$。
1.1 Lotka密度
PageRank分布的推导基于对网页度数分布的观察。相关测量表明,网页图的度数分布遵循著名的Lotka分布,其密度函数为:
[
f_X(x) =
\begin{cases}
\frac{C}{x^{\alpha}}
超级会员免费看
订阅专栏 解锁全文
560

被折叠的 条评论
为什么被折叠?



