信息检索基础技术解析
在信息检索领域,有许多基础技术在文本和图像等不同场景中发挥着重要作用。下面我们将详细探讨这些技术。
图像浏览与信息检索
在图像检索过程中,浏览步骤是常见的。研究表明,图像的排列方式会影响用户的浏览行为。若图像随机排列,用户能快速选择所需图像;若按外观相似度排列,用户选择图像的时间会变长,但对结果的满意度更高。
文本信息检索基础技术
文本信息检索的典型系统会接收一组查询词,通过查询某种索引生成可能匹配的列表,再从中选择与查询相似度足够高的文档,并按重要性排序返回。下面介绍几个关键的技术点。
词频统计
- 词的常见性差异 :在文本信息检索中,少数词常见,多数词稀有。像 “the”、“and”、“but”、“it” 这类常见词被称为停用词,常被忽略,因为几乎每个文档都包含很多。而稀有词的频率更具独特性,很多时候,知道某个词是否存在就足够判断文档主题。例如,包含 “stereo”、“fundamental”、“trifocal” 和 “match” 的文档可能与 3D 重建有关;包含 “chrysoprase”、“incarnadine”、“cinnabarine” 和 “importunate” 的文档可能是关于以 “e” 结尾的 11 个字母的单词列表。
- 文档索引 :构建一个表示每个词出现文档的表格很简单,由于很少有词在很多文档中出现,所以这个表格是稀疏的。用 $N_w$ 表示词的数量,$N_d$ 表示文档的数量,可将表格表示为列表数组,每个词对应一个列表,列表项是包含该词的文档,这就是倒排索引。通过倒
超级会员免费看
订阅专栏 解锁全文
8万+

被折叠的 条评论
为什么被折叠?



