搜索引擎网页排序算法研究
(转自中点线网络:http://www.cnbjyh.com/seo/201103075540.html)
随着互联网的飞速发展,网络信息资源越来越庞大,通常情况下,用户检索到的结果成千上万,所以对于任何一个搜索引擎而言,都必须配备理想的网页排序算法。可以说,排序算法的好坏在一定程度上决定了搜索引擎的质量。目前比较著名的排序算法有词频位置加权排序算法、Direct Hit 算法、PageRank 算法、HITS 算法、以及竞价排名服务等。
一、词频位置加权排序算法
词频位置加权排序算法[2]通过查询关键词在页面中出现的次数和位置对网页进行排序,它是计算机情报检索中最基础的排序算法。该算法的基本思想是,对于用户输入的搜索关键词,如果它在某网页中出现的频率越高,位置越重要,就认为该网页和关键词的相关性越好,也越能满足用户的需求。举例来说,假设搜索关键词出现在“网页主体body”中的权重为l,出现在“标题title”中的权重为2,出现在“链接URL”中的权重为0.5,那么根据关键词出现的次数和位置加权求和,再进行一些辅助