信息检索与超文本:原理、技术与应用
1. 信息检索概述
信息检索(IR)旨在从大量通常存储在计算机中的非结构化材料(如文档、图形、语音、视频)集合里,找出满足信息需求的内容。这里主要聚焦于文本检索。人类在存储系统中查找信息的挑战由来已久,可追溯到公元前三世纪甚至更早,核心难题是如何依据查询找到相关信息源。
信息检索研究催生了多种表示查询和文档、查找最相关文档的方法与技术:
- 布尔模型 :将文档视为一组单词。
- 向量空间模型 :把文档看作单词向量。
- 概率模型 :将查询与文档的相似度视为概率,可用于布尔和向量空间模型。
下面详细介绍布尔模型、向量空间模型以及网页排名算法。
2. 布尔模型
早期的信息检索工作着重把用户查询转化为布尔表达式,在构成每个文档的单词集合中寻找精确匹配。例如查询“莎士比亚哪些戏剧是关于布鲁图斯和恺撒但不涉及卡尔普尼亚的”,核心思路是记录每部戏剧是否包含这些单词。
直到20世纪90年代,布尔模型主要被大型商业信息提供商采用,如律师使用的信息检索系统。其优点是实现简单,能确切知晓查询结果,因为单词与文档要么匹配要么不匹配。然而,它也存在明显缺点:结果无排名,不考虑词权重,语义处理能力脆弱,无法处理同义词或否定情况。比如查询包含“鸟类”的文档,可能会检索到“本文不是关于鸟类”的文档。
为解决这些问题,扩展布尔模型应运而生。例如引入邻近运算符,即只有当查询中的部分单词在文档中以指定邻近度出现时,文档才匹配;部分布尔模型实现允许对查询中的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



