信息检索导论学习笔记(三) 词词典及容错式检索
1.词典搜索的数据结构
哈希表方式
查询速度快,但是无法处理前缀式查询
搜索树方式
注意搜索树的平衡性
2.通配符查询
(1)
反向B-树
通配符不出现在末尾的情况,出现在起始位置。
结合B-树和反向B-树
通配符在中间的情况
(2)
轮转索引
能查询通配符在中间的情况,但是词典会变大
k-gram索引
3.拼写校正
(1)编辑距离
(2)k-gram索引
4.基于发音的校正
本文深入探讨了信息检索中词典的构建与应用,包括哈希表、搜索树等数据结构的选择,以及如何处理通配符查询。此外还介绍了拼写校正的方法,如编辑距离计算与基于发音的校正技术。
哈希表方式
查询速度快,但是无法处理前缀式查询
搜索树方式
注意搜索树的平衡性
(1)
反向B-树
通配符不出现在末尾的情况,出现在起始位置。
结合B-树和反向B-树
通配符在中间的情况
(2)
轮转索引
能查询通配符在中间的情况,但是词典会变大
k-gram索引
(1)编辑距离
(2)k-gram索引

被折叠的 条评论
为什么被折叠?