《统计学习方法》（第二十一章）——PageRank算法

最新推荐文章于 2025-12-10 14:22:55 发布

原创最新推荐文章于 2025-12-10 14:22:55 发布 · 504 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

14 篇文章

订阅专栏

PageRank的定义

基本想法

PageRank算法作为计算互联网网页重要程度的算法被提出，它定义网页集合上的一个函数，它对每个网页给出一个正实数，表示网页的重要程度，值越大重要程度就越大。
假设互联网是一个有向图，在其基础上定义随机游走模型，即一阶马尔可夫链，表示网页浏览者在互联网上随机浏览网页的过程，假设浏览者在每个网页依照连接出去的超链接以等概率跳转到下一个网页，并在网页上持续不断进行这样的随机跳转，这个过程形成一阶马尔可分夫链，最后会收敛到一个固定值

有向图和随机游走模型

随机游走模型
给定一个含有n个结点的有向图，在有向图上定义随机游走模型，即一阶马尔可夫链，其中结点表述状态，有向边表示状态之间的转移，假设从一个节点到通过有向边相连的所有结点的转移概率相等，具体地，转移矩阵是一个n阶矩阵 $M$
$M=[m_{ij}]_{n×n}$
第 $i$ 行第 $j$ 列的元素 $m_{ij}$ 取值规则如下:如果节点 $j$ 有 $k$ 个有向边连出，并且节点 $i$ 是其连出的一个结点，则 $mij=1km_{ij}=\frac{1}{k}$ .否则 $m_{ij}=0$
$∑i=1nmij=1\sum\limits_{i=1}^nm_{ij}=1$
随机游走在某时刻 $t$ 访问各个结点的概率分布就是马尔可夫链在时刻 $t$ 的状态分布，可以用一个 $n$ 维向量 $R_t$ 表示，则
$R_{t+1}=MR_t$

PageRank的基本定义

给定一个包含 $n$ 个结点 $v_1,v_2,..,v_n$ 的强联通且非周期的有向图，在有向图定义随机游走模型，即一阶马尔可分链，随机游走的特点是从一个节点到有有向边连出的所有结点的转移概率相等，转移矩阵为 $M$ ,这个马尔可夫链具有平稳分布 $R$
$R = M R$
平稳分布 $R$ 称为这个有向图的PageRank，R的各个分量称为各个结点的PageRank值
$\left[ \begin{matrix} PR(v_1) \\ PR(v_1) \\ ... \\ PR(v_n) \end{matrix} \right] \tag{3}$
其中
$PR(vi)≥0PR(v_i)\ge0$
$∑i=1nPR(vi)=1\sum\limits_{i=1}^nPR(v_i)=1$
$RP(vi)=∑vj∈M(vi)PR(vj)L(vj)RP(v_i)=\sum\limits_{v_j \in M(v_i)}\frac{PR(v_j)}{L(v_j)}$
$M(v_i)$ 表示指向结点 $v_i$ 的结点集合, $L(v_j)$ 表示结点 $v_j$ 连出的有向边的个数

不可约且非周期的有限状态马尔可夫链，有唯一平稳分布存在，并且当时间趋于无穷时状态分布收敛于唯一的平稳分布

PageRank的一般定义

给定一个含有 $n$ 个结点的任意有向图，在有向图定义一个一般的随机游走模型，即一阶马尔可夫链。一般的随机游走模型的转移矩阵由两部分的线性组合组成，一部分是有向图的基本转移矩阵 $M$ ,表示从从一个结点到其连出的所有结点的转移概率相等，另一部分是完全随机的转移矩阵，表示从任意一个结点到任意一个结点的转移概率为 $1n\frac{1}{n}$ ,线性组合系数为阻尼因子 $d(1≤d≤1)d(1\le d \le 1)$ 这个一般随机游走的马尔可夫链存在平稳分布，记作 $R$ 定义平稳分布向量 $R$ 为这个有向图的一般PageRank
$R=dMR+1−dn1R=dMR+\frac{1-d}{n}\pmb1$ 决定，其中 $1\pmb 1$ 是所有分量为1的n维向量.

PageRank的计算

迭代算法

输入:含有 $n$ 个结点的有向图，转移矩阵 $M$ ，阻尼因子 $d$ ，初始向量 $R_0$
输出:有向图PageRank的向量 $R$
$(1)$ 令 $t = 0$
$(2)$ 计算
$Rt+1=dMRt+1−dn1R_{t+1}=dMR_t+\frac{1-d}{n}\pmb1$
$(3)$ 如果 $R_{t+1}$ 和 $R_t$ 充分接近，令 $R=R_{t+1}$ ,停止
$(4)$ 否则 $t = t + 1$ 转向 $(2)$

幂法

任取初始向量 $x_0$ ,构造如下的一个 $n$ 维向量序列
$x_0,x_1=Ax_0,x_2=Ax_1,...,x_k=Ax_{k-1}$
假设
$∣λ1∣≥∣λ2∣≥...≥∣λn∣|\lambda_1|\ge|\lambda_2|\ge...\ge|\lambda_n|$
对应额线性无关特征向量
$u_1,u_2,...,u_n$
则
$x_0=a_1u_1+a_2u_2+...,+a_nu_n$
$x_1=a_1Au_1+a_2Au_2+...,+a_nAu_n$
$x_k=a_1A^ku_1+a_2A^ku_2+...,+a_nA^ku_n$
$=a1λ1ku1+a2λ2ku2+...,+anλnkun=a_1\lambda_1^ku_1+a_2\lambda_2^ku_2+...,+a_n\lambda_n^ku_n$
$=a1λ1k[u1+a2a1(λ2λ1)ku2+...+ana1(λnλ1)kun]=a_1\lambda_1^k[u_1+\frac{a_2}{a_1}(\frac{\lambda_2}{\lambda_1})^ku_2+...+\frac{a_n}{a_1}(\frac{\lambda_n}{\lambda_1})^ku_n]$
当k充分大时
$xk=a1λ1k[u1+ϵk]x_k=a_1\lambda_1^k[u_1+\epsilon_k]$
$xk→a1λ1ku1x_k\to a_1\lambda_1^ku_1$
$xk≈a1λ1ku1x_k\approx a_1\lambda_1^ku_1$
$xk+1≈a1λ1k+1u1x_{k+1}\approx a_1\lambda_1^{k+1}u_1$
$λ1≈xk+1,jxk,j\lambda_1\approx\frac{x_{k+1,j}}{x_{k,j}}$
在实际计算的时候，我们需要规范化
$y_{t+1}=Ax_t$
$xt+1=yt+1∣∣yt+1∣∣x_{t+1}=\frac{y_{t+1}}{||y_{t+1}||}$
其中
$∣ ∣ x ∣ ∣$ 为无穷范数
输入:含有n个结点的有向图，有向图转移矩阵为 $M$ ,系数为 $d$ ，初始向量 $x_0$ 计算精度 $ϵ\epsilon$
输出：有向图的PageRankR
$(1)$ 令 $t = 0$ ,选择初始向量 $x_0$
$(2)$ 计算有向图的一般转移矩阵 $A$
$A=dM+1−dnEA=dM+\frac{1-d}{n}E$
$(3)$ 迭代并规范化结果
$y_{t+1}=Ax_t$
$xt+1=yt+1∣∣yt+1∣∣x_{t+1}=\frac{y_{t+1}}{||y_{t+1}||}$
$(4)$ $∣∣xt+1−xt∣∣<ϵ||x_{t+1}-x_t|| \lt \epsilon$ ，令 $R=x_t$ ,停止
$(5)$ 否则 $t = t + 1$ 执行 $(3)$
$(6)$ 对 $R$ 进行规范化处理，使其表示概率分布