现代信息检索的考点整理

本文整理了现代信息检索的考点,包括布尔检索、词汇表、索引构建、压缩技术、TF-IDF、VSM、检索评价、相关反馈、概率检索模型、语言建模、Web搜索、采集器和链接分析等内容,适合备考和学习者参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

博客已迁移到:https://arabelatso.github.io/ 这里啦~欢迎大家去新博客一起学习,讨论~
方向:形式化验证、模型检测、机器学习
语言:python、murphi

现代信息检索的考点整理
教材:《信息检索导论》王斌 译 (话说早知道选王斌老师的课了,但是wuli笨笨哥的课也很好的(支持一下班主任)~尽管碎碎念了一点 。。。)
PS. 马上就要考试了好想哭。。。整理一下,希望学弟学妹们以后可以用到。。。

考点整理
一、 布尔检索
• 信息检索概念
• 倒排记录表
• 布尔检索:用and,or,not表示的查询
二、词汇表和倒排记录表
• 停用词的优缺点:倾向于不去除,因为去除可能会造成问题。且现在的信息检索系统有良好的压缩技术和查询优化技术,基本不会增加空间和时间开销。
• Bm25要去掉停用词
三、词典及容错式检索
• 编辑距离的算法:左上:如果不相等,则+1. 右上:上面的直接+1。左下:左边的直接+1。右下:前三个的最小值
• 编辑距离找寻依据:看最小值从哪里来。然后就知道怎么改了
四、索引构建
• bsbi:term-termid的全局表,倒排记录表要排序
• spimi:没有term-termid的表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值