4、信息检索与超文本：原理、技术与应用

JavaSoul111

于 2025-08-24 10:32:09 发布

阅读量50

点赞数

CC 4.0 BY-SA版权

分类专栏：知识图谱：智能时代的基石文章标签：信息检索布尔模型向量空间模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/y2z3a4b5c/article/details/152064688

知识图谱：智能时代的基石专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

信息检索与超文本：原理、技术与应用

1. 信息检索概述

信息检索（IR）旨在从大量通常存储在计算机中的非结构化材料（如文档、图形、语音、视频）集合里，找出满足信息需求的内容。这里主要聚焦于文本检索。人类在存储系统中查找信息的挑战由来已久，可追溯到公元前三世纪甚至更早，核心难题是如何依据查询找到相关信息源。

信息检索研究催生了多种表示查询和文档、查找最相关文档的方法与技术：
- 布尔模型 ：将文档视为一组单词。
- 向量空间模型 ：把文档看作单词向量。
- 概率模型 ：将查询与文档的相似度视为概率，可用于布尔和向量空间模型。

下面详细介绍布尔模型、向量空间模型以及网页排名算法。

2. 布尔模型

早期的信息检索工作着重把用户查询转化为布尔表达式，在构成每个文档的单词集合中寻找精确匹配。例如查询“莎士比亚哪些戏剧是关于布鲁图斯和恺撒但不涉及卡尔普尼亚的”，核心思路是记录每部戏剧是否包含这些单词。

直到20世纪90年代，布尔模型主要被大型商业信息提供商采用，如律师使用的信息检索系统。其优点是实现简单，能确切知晓查询结果，因为单词与文档要么匹配要么不匹配。然而，它也存在明显缺点：结果无排名，不考虑词权重，语义处理能力脆弱，无法处理同义词或否定情况。比如查询包含“鸟类”的文档，可能会检索到“本文不是关于鸟类”的文档。

为解决这些问题，扩展布尔模型应运而生。例如引入邻近运算符，即只有当查询中的部分单词在文档中以指定邻近度出现时，文档才匹配；部分布尔模型实现允许对查询中的

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。