PageRank 算法（从原理到实现）

谷歌的两位创始人，当时还是美国斯坦福大学 (Stanford University) 研究生的佩奇 (Larry Page) 和布林 (Sergey Brin) 开始了对网页排序问题的研究。他们的借鉴了学术界评判学术论文重要性的通用方法，那就是看论文的引用次数。由此想到网页的重要性也可以根据这种方法来评价。于是PageRank的核心思想就诞生了，非常简单：

当一个网页被更多网页所链接时，其排名PageRank会越靠前；

排名高的网页应具有更大的表决权，即当一个网页被排名高的网页所链接时，其排名PageRank也应对应提高。

就如同下面两张图所示：
在这里插入图片描述

在这里插入图片描述

目前很多重要的链接分析算法都是在PageRank 算法基础上衍生出来的。PageRank 是Google 用于用来标识网页的等级/ 重要性的一种方法，是Google 用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title 标识和Keywords 标识等所有其它因素之后， Google 通过PageRank 来调整结果，使那些更具“等级/ 重要性”的网页在搜索结果中令网站排名获得提升，从而提高搜索结果的相关性和质量。其级别从0到10级，10级为满分。PR值越高说明该网页越受欢迎（越重要）。例如：一个PR值为1的网站表明这个网站不太具有流行度，而PR值为7到10则表明这个网站非常受欢迎（或者说极其重要）。一般PR值达到4，就算是一个不错的网站了。Google把自己的网站的PR值定到10，这说明Google这个网站是非常受欢迎的，也可以说这个网站非常重要。

算法原理

PageRank算法简单来说分为两步：

给每个网页一个PR值（下面用PR值指代PageRank值）
通过（投票）算法不断迭代，直至达到平稳分布为止。

互联网中的众多网页可以看作一个有向图。下图是一个简单的例子
在这里插入图片描述
由于PR值物理意义上为一个网页被访问概率，所以初始值可以假设为 $\frac{1}{N}$ ，其中N为网页总数。一般情况下，所有网页的PR值的总和为1。（如果不为1的话也不是不行，最后算出来的不同网页之间PR值的大小关系仍然是正确的，只是不能直接地反映概率了。而且公式也不再是本文提供的公式了，详见PageRank简单实现中的一个错误）。

A、B、C三个页面都链入D页面，则D的PR值将是A、B、C三个页面PR值的总和：
$P R (A) = P R (B) + P R (C) + P R (D)$
继续上面的假设，A除了链接到D以外，A还链接了C和B，那么当用户访问 A 的时候，就有跳转到 B、C 或者 D 的可能性，跳转概率均为 $\frac{1}{3}$ 。在计算D的PR值时，A的PR值只能投出 $\frac{1}{3}$ 的票，B的PR值只能投出 $\frac{1}{2}$ 的票，而C只链接到C，所以能投出全票，所以A的PR值总和应为：
$\frac{P R ( A )} { 3 }+ \frac{P R ( B )} { 2} + P R ( C )$
所以可以得出一个网页的PR值计算公式应为：