博客已迁移到:https://arabelatso.github.io/ 这里啦~欢迎大家去新博客一起学习,讨论~
方向:形式化验证、模型检测、机器学习
语言:python、murphi
现代信息检索的考点整理
教材:《信息检索导论》王斌 译 (话说早知道选王斌老师的课了,但是wuli笨笨哥的课也很好的(支持一下班主任)~尽管碎碎念了一点 。。。)
PS. 马上就要考试了好想哭。。。整理一下,希望学弟学妹们以后可以用到。。。
考点整理
一、 布尔检索
• 信息检索概念
• 倒排记录表
• 布尔检索:用and,or,not表示的查询
二、词汇表和倒排记录表
• 停用词的优缺点:倾向于不去除,因为去除可能会造成问题。且现在的信息检索系统有良好的压缩技术和查询优化技术,基本不会增加空间和时间开销。
• Bm25要去掉停用词
三、词典及容错式检索
• 编辑距离的算法:左上:如果不相等,则+1. 右上:上面的直接+1。左下:左边的直接+1。右下:前三个的最小值
• 编辑距离找寻依据:看最小值从哪里来。然后就知道怎么改了
四、索引构建
• bsbi:term-termid的全局表,倒排记录表要排序
• spimi:没有term-termid的表