[IR课程笔记]Hyperlink-Induced Topic Search(HITS)

本文介绍了一种基于网页链接分析的HITS算法,该算法通过迭代计算网页的枢纽分数(hubscore)和权威分数(authoritativescore),以确定网页的相关性和重要性。与PageRank相比,HITS更侧重于特定查询的上下文相关性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

两个假设

   1. 好的hub pages: 好的对某个主题的hub pages 链接许多好的这个主题的authoritative pages.

    2. 好的authoritative pages: 好的对某个主题的authoritative pages 被许多好的这个主题的hub pages链接。 

   注:循环定义

 

算法过程:

  1.找出root set :用户输入一个query,根据query中的term,在文档集中找出包含至少一个term的的文档,使他们构成root set。

   2. 找出base set : 在root set的基础上,找出root set中网页链入或链出并且不在root set中的网页,并把他们加入到root set中,从而构成base set。

  3.计算每一个网页的hub score h(x) 和 authoritative score a(x). h(x) = x链出的网页的a值之和。a(x) = x链入的网页的所有h值之和。(初始时,所有h值和a值均为1)

  4.归一化。

  5.迭代直至收敛。

  6.选出top-n h值得网页作为 top hubs,选出top-n a值的网页作为top authoritives.

 

与Page Rank 比较:

  1. 范围不同  HITS:base set     Page Rank:所有网页

  2. HITS:与query有关,online    Page Rank: 与query无关,off line

 

转载于:https://www.cnblogs.com/leeshum/p/4925543.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值