1.引言
万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战。
本文探讨了搜索引擎中的链接分析算法,包括PageRank、HITS及其变种,如Google的PageRank、HITS的Hub和Authority概念、SALSA、ARC、BFS和贝叶斯算法等。这些算法利用超链结构提高搜索结果质量,但也面临主题漂移、噪声链接等问题。文章分析了各算法的特点、优缺点,并提出了未来研究的方向。
1.引言
万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战。
995

被折叠的 条评论
为什么被折叠?