搜索引擎搜索结果排名机制解析
1. 文本统计排名的局限性
早期搜索引擎如 Excite、Lycos 和 AltaVista 主要采用传统信息检索系统的标准文本统计排名。这种排名方式基于一个假设,即数据库中的所有文档潜在质量水平相同,且排名不考虑文档是否普遍适合用户,仅依据文本本身判断哪些文档可能特别适合查询。
然而,在网络环境中,文档由各种动机的不同作者创作,文档的可靠性需要评估。同时,早期搜索引擎还面临大量垃圾文档的问题,例如许多搜索引擎曾将当时的色情网站 whitehouse.com 在“white house”查询中排在首位。
2. 基于流行度的排名方法
搜索引擎衡量文档质量的一个基本方法是测量其流行度,基本假设是其他用户认为好的内容,至少在一定程度上,对当前搜索的用户也有帮助。流行度的测量可以从不同层面进行:
- 用户群体层面 :可分为在所有用户中的流行度、特定用户群体中的流行度以及针对单个用户的流行度(个性化)。
- 数据收集类型层面 :
- 基于网络链接的数据收集(链接拓扑方法) :通过网络的链接结构,确定哪些文档特别受欢迎(即被其他文档频繁链接),这种方法只考虑创建文档或设置链接者的意见。
- 记录用户点击(使用统计) :通过测量用户实际查看的内容,确定哪些文档特别受欢迎,此方法评估的是用户的行为,而非仅考虑内容创作者的评价。
以下是流行度测量方法的对比表格:
| 测量方法 | 数据来源 | 考虑因素 |
| --
搜索引擎排名机制解析
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



