大话主题敏感PageRank

最新推荐文章于 2024-09-03 15:59:48 发布

原创

最新推荐文章于 2024-09-03 15:59:48 发布 · 293 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了主题敏感PageRank，它是PageRank算法的改进版，用于个性化搜索。该算法考虑用户兴趣、页面主题及链接相关性，每个网页对应16个主题有不同PageRank值。在接收到查询后，它能根据查询主题计算相似度，提供相关性更高的搜索结果，适合用于构建个性化搜索系统。

本文节选自《这就是搜索引擎：核心技术详解》第六章

主题敏感PageRank是PageRank算法的改进版本，该算法已被Google使用在个性化搜索服务中。

6.6.1 主题敏感PageRank与PageRank的差异

PageRank算法基本遵循前面章节提到的“随机游走模型”，即用户在浏览某个网页时，如果希望跳转到其它页面，则随机选择本网页包含的某个链接，进入另外一个页面。主题敏感PageRank则对该概念模型做出改进，引入了更符合现实的假设。一般来说用户会对某些领域感兴趣，同时，当浏览某个页面时，这个页面也是与某个主题相关的（比如体育报道或者娱乐新闻），所以，当用户看完当前页面，希望跳转时，更倾向于点击和当前页面主题类似的链接，即主题敏感PageRank是将用户兴趣、页面主题以及链接所指向网页与当前网页主题的相似程度综合考虑而建立的模型。很明显，这更符合真实用户的浏览过程。

PageRank是全局性的网页重要性衡量标准，每个网页会根据链接情况，被赋予一个唯一的PageRank分值。主题敏感PageRank在此点有所不同，该算法引入16种主题类型，对于某个网页来说，对应某个主题类型都有相应的PageRank分值，即每个网页会被赋予16个主题相关PageRank分值。

在接受到用户查询后，两个算法在处理方式上也有较大差异。PageRank算法与查询无关，只能作为相似度计算的一个计算因子体现作用，无法独立使用。而主题敏感PageRank是查询相关的，可单独作为相似度计算公式使用。而且，在接收到用户查询后，主题敏感PageRank还需要利用分类器，计算该查询隶属于事先定义好的16

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。