7、搜索引擎:内容抓取、处理与查询理解

搜索引擎:文档预处理与查询理解

搜索引擎:内容抓取、处理与查询理解

1. 索引器:文档预处理

在搜索引擎的工作流程中,索引器起着至关重要的作用,它负责对文档进行预处理,以便后续的搜索操作。

1.1 基于位置的文档排名

文档中搜索词出现的位置对其相关性有重要影响。一般来说,搜索词出现在文档开头的文档,比搜索词仅出现在较后位置的文档,对搜索者的相关性更高。基于这一简单标准,我们可以创建一个排名。例如,对于包含“field”一词的文档,根据该词出现的位置,文档的排序可能是文档 2 在前,文档 1 在后。不过,这种排名方式远远不能满足当今搜索引擎的要求,但它展示了如何利用倒排索引快速创建排名,而无需逐个访问每个文档。

1.2 文本结构信息的利用

之前我们将待索引的文档视为普通的连续文本,认为每个单词可能具有相同的含义。但实际上,我们在阅读时会更关注标题中的单词或特别突出显示的单词。搜索引擎利用文本的这种结构信息,在索引过程中给予其特殊的权重。例如,可以规定文本主标题中出现的单词的重要性是该单词在文本其他位置出现时的两倍。为了实现这样的计算,底层信息必须已经被捕获到索引中。因此,可以区分对突出显示的单词(如粗体或斜体)进行索引和对专用字段中的信息进行索引。可以为文档的标题和文档内的标题定义字段,这些字段可用于有针对性的搜索或排名。

1.3 非文本文件的索引

除了文本文件,搜索引擎还需要处理其他类型的文档,如图像、音频和视频文件。
- 图像索引 :基于图像内容进行索引的工作已经有很多,但目前这种索引方式的质量还不足以用于搜索引擎所代表的网络。搜索引擎通常直接从图像中提取基本信息,如图像

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值