关于为什么pagerank能收敛

最新推荐文章于 2024-10-17 09:30:00 发布

原创最新推荐文章于 2024-10-17 09:30:00 发布 · 6.5k 阅读

15 ·

CC 4.0 BY-SA版权

学习笔记专栏收录该内容

18 篇文章

订阅专栏

PageRank算法通过建立有向图模型，初始分配PR值并进行迭代更新，结合 teleporting 机制解决孤立网页问题。当转换为Markov过程后，证明其满足随机矩阵的收敛条件：所有元素非负、每列元素和为1、不可约和非周期性，从而确保PageRank算法的收敛性。

关于为什么pagerank能收敛

pagerank的主要思想

如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是PageRank值会相对较高
如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页的PageRank值会相应地因此而提高

算法原理

这里写图片描述

PageRank算法是互联网中的众多网页看做是一个有向图，如上图所示。算法过程是把网页预先给网页一个PR值（一般取 $1N\frac{1}{N}$ , N 为网页总数）。然后通过以下公式不断更新PR值，直到收敛：

$PR(pi)=α∑pj∈MpiPR(pj)L(pj)+1−αNPR(p_i) = \alpha \sum _{p_j \in M_{p_i}} \frac{PR(p_j)}{L(p_j)} + \frac{1-\alpha}{ N}$

其中 $M_{p_i}$ 是所有对 $p_i$ 网页有出链的网页集合， $L(p_j)$ 是 $p_j$ 的出链数目， $a l p h a = 0.85$ ，从以上公式来看，若 $M_{p_i}$ 的PR值越大， $p_i$ 越大，同时 $M_{p_i}$ 中的网页，出链数目越少，影响力越大。

为了解决有些网页不被链接的情况，引入了『teleporting』, 所谓『teleporting』就是我们认为在任何一个页面浏览的用户都有可能以一个极小的概率瞬间转移道另外一个随机页面。当然，这个页面之前可能不存在超链接，因此不可能直接转移过去，只是为了算法需要。即 $1−αN\frac{1-\alpha}{ N}$