4、信息检索与超文本:原理、技术与应用

信息检索与超文本:原理、技术与应用

1. 信息检索概述

信息检索(IR)旨在从大量通常存储在计算机中的非结构化材料(如文档、图形、语音、视频)集合里,找出满足信息需求的内容。这里主要聚焦于文本检索。人类在存储系统中查找信息的挑战由来已久,可追溯到公元前三世纪甚至更早,核心难题是如何依据查询找到相关信息源。

信息检索研究催生了多种表示查询和文档、查找最相关文档的方法与技术:
- 布尔模型 :将文档视为一组单词。
- 向量空间模型 :把文档看作单词向量。
- 概率模型 :将查询与文档的相似度视为概率,可用于布尔和向量空间模型。

下面详细介绍布尔模型、向量空间模型以及网页排名算法。

2. 布尔模型

早期的信息检索工作着重把用户查询转化为布尔表达式,在构成每个文档的单词集合中寻找精确匹配。例如查询“莎士比亚哪些戏剧是关于布鲁图斯和恺撒但不涉及卡尔普尼亚的”,核心思路是记录每部戏剧是否包含这些单词。

直到20世纪90年代,布尔模型主要被大型商业信息提供商采用,如律师使用的信息检索系统。其优点是实现简单,能确切知晓查询结果,因为单词与文档要么匹配要么不匹配。然而,它也存在明显缺点:结果无排名,不考虑词权重,语义处理能力脆弱,无法处理同义词或否定情况。比如查询包含“鸟类”的文档,可能会检索到“本文不是关于鸟类”的文档。

为解决这些问题,扩展布尔模型应运而生。例如引入邻近运算符,即只有当查询中的部分单词在文档中以指定邻近度出现时,文档才匹配;部分布尔模型实现允许对查询中的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值