信息检索导论学习笔记(二) 词项词典和倒排记录表

本文探讨了信息检索中的关键技术——倒排索引。首先介绍了文档分析与编码转换的过程,包括生成字符序列、选择文档单位等步骤。接着讨论了词项集合的选择,涉及到词条化处理、去除停用词、归并处理以及词干还原和词形归并等内容。最后,详细阐述了基于跳表的倒排记录表快速归并算法及其应用场景。

信息检索导论学习笔记(二) 词项词典和倒排记录表

文档的分析和编码的转换

1.生成字符序列

2.文档单位的选择

词项集合的选择

(1)词条化

词条化处理往往与语言本省有关,不同语言下的词条化并不相同。

(2)去除停用词

(3)归并处理

(4)词干还原(stemming)和词形归并(lemmatization)

基于跳表的倒排记录表快速归并算法(skip list)

在更号P的位置插入跳针,只对A And B的情形使用

含位置信息的倒排顺序表







评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值