链接分析之随机游走模型和子集传播模型

本文探讨了链接分析在搜索引擎和信息检索中的应用,重点关注随机游走模型和子集传播模型。随机游走模型模拟用户浏览网页的行为,包括直接跳转和远程跳转,而子集传播模型如HITS算法,则通过划分网页集合并传递权重来评估重要性。这两种模型是链接分析算法如PageRank和HITS的基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

两个web页面通过hyperlink连接,可以认为这两个页面具有某种关系,在科学文献中这种关系很大程度上可以认为是引用文献与被引用文献在内容、主题上有很多的相似性,并且利用这种引用关系在信息计量学领域可以计算期刊的影响因子。互联网包含了浩瀚的网页,它们之间存在着无数的链接与被链接的关系,同样,我们也可通过分析这些链接,得到某一个网页的重要性得分。许多链接分析算法如PageRank、HITS等都是基于这种思维而创建的。

而绝大多数链接分析算法都是建立在两个概念模型之上:

1.随机游走模型

随机游走模型是针对浏览网页的用户行为建立的抽象概念模型。用户打开浏览器,往往是先输入一个链接,浏览页面,然后顺着页面的链接不断打开新的网页。用户不断重复以上过程,直到用户不再对接下来的页面感兴趣,就有可能直接输入另外一个网址跳转到另外一个页面,这个行为称为远程跳转(Teleporting)(在PageRank中为了防止链接陷阱,即在一个环形的页面组中,只有入链而没有出链,会导致这个环形组中的页面PR值在一轮一轮的迭代中不断的增大,为了解决这一情况,PageRank在这个页面组中使用了远程跳转,即使环形组页面也有一定的几率向外传递分值)。随机游走模型就是一个对直接跳转和远程跳转两种用户浏览行为进行抽象的概念模型。

2.子集传播模型

子集传播模型是《这就是搜索引擎》的作者张俊林从具体的链接分析算法中归纳出的抽象模型,最典型的的就是HITS算法。其基本思想是把互联网网页按照一定规则划分,分为两个甚至是多个子集合。通过给予子集合内的网页初始权值,通过链接关系,把权值传递出去。例如,HITS算法选择集合的方法是:通过用户提交的查询词,在搜索引擎中得到该查询词的检索结果,取排名靠前的前n个网页(如n=200),这n个网页作为root set。在根集root的基础上,对网页集合进行扩充集合base set,扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base set,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合base set(参见图1)。HITS算法就是在base集合上进行网页权威的和中心度的计算的。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值