PageRank是谷歌搜索引擎的核心技术,在学习了矩阵之后,用这个实际例子实验一下。
问题提出
PageRank的核心思想就是:
- 如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高
- 如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高
因此,我们希望计算出每个网站的PR值,通过这个值来反映网站的重要程度,进而对网站排序。
这样,我们就可以对这个问题进行如下建模和猜想:
假设 n n 是所有可访问网页的数目,此数值非常大,定义 为网页链接矩阵 G=(gij)∈Rn×n G = ( g i j ) ∈ R n × n ,若从网页 j j 有一个链接到网页 ,则 gij=1 g i j = 1 ,否则为0。矩阵 G G 有如下特点:
-
是大规模系数矩阵;
- 第 j j 列非零向量的位置表示了从网页 链接出去的所有网页;
- 第 i i 行非零向量的位置表示了所有链接到网页 的网页;
- G G 中非零向量的数目为整个网络中存在的超链接的数目;

PageRank是谷歌搜索引擎关键技术,通过分析网页链接关系计算重要性。文章介绍了PageRank的核心思想,即重要网页链接到的网页也会提高其PR值。接着,建立了大规模系数矩阵模型,解释了网页间转移概率的计算,并描述了PageRank向量的收敛性质。最后,提到了算法的实现和参考资料。
最低0.47元/天 解锁文章
2127

被折叠的 条评论
为什么被折叠?



