PageRank算法

PageRank是Google的创始人提出的链接分析算法,用于衡量网页的重要性。核心思想是通过链接关系和阻尼系数计算页面等级。PageRank算法在计算中考虑所有页面的链接,赋予重要页面更高的权值。虽然有主题相关性和新页面权重低等缺点,但通过主题敏感PageRank和TrustRank等改进算法可以提高效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 概述

PageRank是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,并以Google创办人拉里.佩奇(Larry Page)命名。

PageRank计算页面的重要性,对每个链入(inbound)赋以不同的权值,链接提供的页面越重要则此链接权值越高。当前页的重要性,是由其它页面的重要性决定的。PR值是衡量网站重要性的标准。 一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。一般PR值达到4,就算是一个不错的网站了。Google把自己的网站的PR值定到10,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。

2 核心思想

PageRank通过网络超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。

一个页面的“得票数”由所有链向它的页面的重要性来决定。一个页面的PageRank是由所有链向它的页面(“链入页面”)的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。

3 PageRank算法原理

简易版本:
假设一个由4个网页组成的群体:A,B,C和D。如果所有页面都只链接至A,那么A的PR(PageRank)值将是B,C及D的Pagerank总和。

PR(A)=PR(B)+PR(C)+PR(D)

继续假设B也有链接到C,并且D也有链接到包括A的3个页面。一个页面总共只有一票。所以B给每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。
PR(A)=PR(B)2+PR(C)1+PR(D)3

PR(A)=PR(B)L(B)+PR(C)L(C)+PR(D)L(D)

其中, L(B) L(C) L(D) 为网页B,C,D的链出数量。

完整版本:
由于存在一些出链为0,也就是那些不链接任何其他网页的网, 也称为孤立网页(黑洞吞噬)。因此需要对 PageRank公式进行修正,即在简单公式的基础上增加了阻尼系数(damping factor)d, d一般取值q=0.85。

其意义是,在任意时刻,用户到达某页面后并继续向后浏览的概率。 1- d= 0.15 (就是用户停止点击随机跳到新URL的概率)的算法被用到了所有页面上,估算页面可能被上网者放入书签的概率。

由于没有页面的PageRank会是0。所以,Google通过数学系统给了每个页面一个最小值 (1d)/N
所以这个公式如下:

PageRank(pi)=1dN+dpjM(pi)PageRank(pj)L(pj)

其中, p1p2,...,pN 是被研究的页面, M(pi) 是链入 pi 页面的集合, L(pj) pj 链出页面的数量,N是所有页面的数量。

步骤如下:
1. 在初始阶段:网页通过链接关系构建起Web图,每个页面设置相同的PageRank值,通过若干轮的计算,会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行,网页当前的PageRank值会不断得到更新。
2. 在一轮中更新页面PageRank得分的计算方法:在一轮更新页面PageRank得分的计算中,每个页面将其当前的PageRank值平均分配到本页面包含的出链上,这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和,即可得到新的PageRank得分。当每个页面都获得了更新后的PageRank值,就完成了一轮PageRank计算,直至收敛。

计算过程:Markov链的转移概率矩阵 看例子

例子:
Alt text

(“MapR”,List(“Baidu”,”Blogger”)),
(“Baidu”, List(“MapR”),
(“Blogger”,List(“Google”,”Baidu”)),
(“Google”, List(“MapR”))

第一步 先将每个网页的PR值赋值为1(不论初始值如何选取,都保证了网页排名的估计值能收敛 到他们的真实情况)。并令其为Alt text

根据
Alt text

第二步 得到状态转移矩阵P
Alt text


PR1=0.85PPR0+0.15

依次类推,迭代第十次时
PR10=0.85PPR9+0.15

最后结果为 Alt text

4 优缺点

优点:
- 是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。

缺点:

  • 人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低
  • 旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。

5 改进

针对第一个缺点,史坦福大学提出了主题敏感性PageRank算法
针对第二个缺点,提出了TrustRank算法。原理:先人工去识别高质量的页面(即“种子”页面),那么由“种子”页面指向的页面也可能是高质量页面,即其TR值也高,与“种子”页面的链接越远,页面的TR值越低。“种子”页面可选出链数较多的网页,也可选PR值较高的网站。

6 总结

Pagerank算法复杂度并不大,难度在于对海量数据的处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值