在搜索时,当我们有多个搜索结果时,我们需要对结果进行排序,这里讲的是如何对结果进行评分,从而进行排序。
1.1. Content-Based Ranking
1.1.1. Word Frequence
通常所说的词频,根据关键字的出现次数来评分。出现次数越多分数越高。分数越高表示与搜索越相关。
1.1.2. Document Location
根据关键字出现位置来评分。关键字出现的越靠前分值越高。分数越高表示与搜索越相关。
1.1.3. Word Distance
假定用户有多个搜索关键字,关键字1在文档的出现位置为P1,关键字2在文档的出现位置为P2,那么Word Distance就是|P2-P1|。该值越小表示与搜索越相关。
1.2. Inbound-Link Ranking
1.2.1. Simple Count
根据一个页面的链入连接数来评分。链入数越多分数越高。分数越高表示与搜索越相关。
1.2.2. PageRank
假定网络拓扑如下:
PR(A) = 0.15 + 0.85 * (PR(B)/links(B) + PR(C)/links(C) + PR(D)/links(D))
= 0.15 + 0.85 * (0.5/4 + 0.7/4 + 0.2/1)
= 0.5425
0.85是一个统计值,称为Damping Factor。表示一个用户会点击某个页面上的链接的概率。
PR(X)表示页面X的PageRank。
Links(X)表示页面X的链出数。
1.2.3. Link Text
如果页面A有到页面B的链接,并且链接上的说明文字包含了搜索中的关键字,则页面A的PageRank将加到页面B的PageRank上。
1.3. 神经网络