信息检索导论学习笔记(二) 词项词典和倒排记录表
文档的分析和编码的转换
1.生成字符序列
2.文档单位的选择
词项集合的选择
(1)词条化
词条化处理往往与语言本省有关,不同语言下的词条化并不相同。
(2)去除停用词
(3)归并处理
(4)词干还原(stemming)和词形归并(lemmatization)
基于跳表的倒排记录表快速归并算法(skip list)
在更号P的位置插入跳针,只对A And B的情形使用
含位置信息的倒排顺序表
文档的分析和编码的转换
1.生成字符序列
2.文档单位的选择
词项集合的选择
(1)词条化
词条化处理往往与语言本省有关,不同语言下的词条化并不相同。
(2)去除停用词
(3)归并处理
(4)词干还原(stemming)和词形归并(lemmatization)
基于跳表的倒排记录表快速归并算法(skip list)
在更号P的位置插入跳针,只对A And B的情形使用
含位置信息的倒排顺序表