信息检索主题深度剖析
1. 信息检索基础概述
信息检索(IR)研究旨在开发从文档库中检索信息的算法和模型,特别是文本信息。经典的信息检索问题是即席检索问题,用户输入描述所需信息的查询,系统返回文档列表。主要有两种模型:精确匹配系统返回精确满足结构化查询表达式的文档,布尔查询是其最知名的类型,在商业信息系统中仍广泛使用;但对于大型异构文档集合,精确匹配系统的结果集往往为空或过大难以处理,因此近期工作多集中于根据文档与查询的相关性对文档进行排名的系统。
即席检索的一些研究方面包括:用户如何通过相关性反馈交互式改进原始查询表述;如何将多个文本数据库的结果合并为一个结果列表(数据库合并);适用于部分损坏数据(如OCR文档)的模型;以及如何解决非英语语言在信息检索中带来的特殊问题。
信息检索的一些子领域依赖已分类为与特定查询相关或不相关的文档训练语料库。文本分类试图将文档分配到两个或多个预定义类别中,例如路透社为其新闻故事分配的主题代码。过滤和路由是文本分类的特殊情况,只有相关和不相关两个类别。路由根据估计的相关性对文档进行排名,而过滤需要对每个文档进行相关性估计,通常以概率估计的形式。
| 子领域 | 描述 |
|---|---|
| 文本分类 | 将文档分配到预定义类别 |
| 过滤 | 对每个文档进行相关性估计 |
| 路由 | 根据相关性对文档进行排名 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



