信息检索——词项词典及倒排记录表

本文介绍了信息检索中词项词典和倒排记录表的概念及其处理方法,包括文档预处理、索引粒度的选择、跳表在倒排记录表合并中的应用,以及短语查询和位置信息索引的实现。重点讨论了跳表指针的设置策略和二元接续词对与位置信息索引的优缺点,提出混合索引作为优化方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

词项词典及倒排记录表

 

本章内容

收集词项词典的预处理

  1. 收集文档
  2. 词条化
  3. 应该把哪些词放入索引?

倒排记录表

  1. 快速处理:跳表
  2. 含位置信息的倒排记录表和短语查询

 

 

 

 

分析文档

  1. 需要处理每一个文档的格式及语言
  2. 格式:PDF/excel/word/HTML...
  3. 语言
  4. 字符集:utf-8/gbk/gb2312....

 

索引粒度

可取的做法是将每章或每段看成一个微型文档来建立索引,匹配单位的粒度越小,用户就越容易在文档中找到相关的段落。

  • 索引粒度太小,正确率高  召回率低
  • 索引粒度太大,召回率高  正确率低

 

 

 

词条与词项

词条:从原文 中切出来的,一模一样

词项:词条经过若干处理,再进行同义词归类后成为了词项

 

词条预处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NoTqqa

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值