信息检索导论学习笔记(二) 词项词典和倒排记录表
文档的分析和编码的转换
1.生成字符序列
2.文档单位的选择
词项集合的选择
(1)词条化
词条化处理往往与语言本省有关,不同语言下的词条化并不相同。
(2)去除停用词
(3)归并处理
(4)词干还原(stemming)和词形归并(lemmatization)
基于跳表的倒排记录表快速归并算法(skip list)
在更号P的位置插入跳针,只对A And B的情形使用
含位置信息的倒排顺序表
本文探讨了信息检索中的关键技术——倒排索引。首先介绍了文档分析与编码转换的过程,包括生成字符序列、选择文档单位等步骤。接着讨论了词项集合的选择,涉及到词条化处理、去除停用词、归并处理以及词干还原和词形归并等内容。最后,详细阐述了基于跳表的倒排记录表快速归并算法及其应用场景。
文档的分析和编码的转换
1.生成字符序列
2.文档单位的选择
词项集合的选择
(1)词条化
词条化处理往往与语言本省有关,不同语言下的词条化并不相同。
(2)去除停用词
(3)归并处理
(4)词干还原(stemming)和词形归并(lemmatization)
基于跳表的倒排记录表快速归并算法(skip list)
在更号P的位置插入跳针,只对A And B的情形使用
含位置信息的倒排顺序表
2985
846

被折叠的 条评论
为什么被折叠?