目录
PageRank网页排名算法
PangeRank算法是Google公司创始人之一Larry Page发明的,它是一个用来衡量评估网页重要性或者等级的算法。Google公司据此标识网页的PR值,最直观的条件就是有很多网页链接到它,尤其是要有很高Rank值的网页链接到该网页。
基本思想
如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋给A,这个重要性得分值为: PR(T)/L(T) P R ( T ) / L ( T ) .其中 PR(T) P R ( T ) 为 T T 的PangeRank值, 为 T T 的输出链数。则A的PangeRank值为一系列类似于 的页面重要性得分值的累加。
即一个页面的得票数由所有链向它的重要性来决定的
,到一个页面的超链接相当于对该页面投一票
。一个页面的PangeRank是由所有链向它的页面的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果第一个页面没有任何链入页面,那么它没有等级。
简单计算
假设一个由只有4个页面组成的集合: A,B,C和D A , B , C 和 D 。如果所有页面都链向 A A ,那么A的PR值将是
的和。
继续假设 B B 也有链接到 ,并且 D D 也有链接到包括 的3个页面。一个页面不能投票2次。所以 B B 给每个页面半票。同样, 投出的票只有三分之一算到了A的PangeRank上。
换句话说,根据链出的总数平分一个页面的PR值。
PageRank 的简化模型
互联网上的各个网页之间的连接关系我们都可以看成一个有向图,对于任意的网页,它的PR值可以表示为:
其中, Bu B u 是所有链接到网页 u u 的网页集合,网页 是属于集合 Bu B u 的网页, L(v) L ( v ) 则是网页 v v 的对外链接数(即出度)。
简化模型的问题
排名泄露
如上图所示,如果存在网页没有出度链接,如A点,则会产生排名泄露问题,经过多次迭代之后,所有网页的PR值会趋向于0。其中,有向图可以得出如下的初始的转移矩阵: