
information retrieval
文章平均质量分 87
ww188
这个作者很懒,什么都没留下…
展开
-
第三章 词典及容错式检索
《信息检索导论》美德两国作者 王斌翻译本文是本人的读书笔记本书参考:http://home.ustc.edu.cn/~zhufengx/ir/index.html [中科大的教学网站,非常具有参考价值] 3.2 通配符查询3.2.2 支持通配符查询的k-gram索引k-gram: 举个例子 castle的3-gram形式:$cas,cas,ast,stl,tle,le原创 2017-04-21 15:05:47 · 1238 阅读 · 0 评论 -
第二章 词项词典及倒排记录表
2.1 文档分析及编码转换2.1.1 字节序列生成2.1.2 文档单位的选择2.2 词项集合的确定2.2.1 词条化2.2.2 去除停用词2.2.3 词项归一化2.2.4 词干还原和词形归并2.3 基于跳表的倒排记录表的快速合并算法倒排记录表的合并o(m+n) ?可以否提高。带跳表指针的倒排记录表?实现?带跳表指针的倒排记录表。2.原创 2017-04-21 15:05:26 · 456 阅读 · 0 评论 -
第一章 布尔检索
美德两国作者 王斌翻译本文是本人的读书笔记本书参考:http://home.ustc.edu.cn/~zhufengx/ir/index.html [中科大的教学网站,非常具有参考价值] 1.1 一个信息检索的例子初识倒排索引:词典:dictionary、vacabulary、lexicon倒排记录表: postings、post list、inverted list原创 2017-04-21 15:04:36 · 344 阅读 · 0 评论 -
第四章 索引构建
《信息检索导论》美德两国作者 王斌翻译本文是本人的读书笔记本书参考:http://home.ustc.edu.cn/~zhufengx/ir/index.html [中科大的教学网站,非常具有参考价值] 4.2 基于块的排序索引方法本节存在疑问:多个块进行合并时,把全部的块读入,并写到一个merge文件中,一样需要大内存吧?这个问题怎么解决的?算法思想实例原创 2017-05-31 11:56:23 · 350 阅读 · 0 评论 -
第六章 文档评分、词项权重计算及向量空间模型
6.1 参数化索引及域索引检索的时候,条件可以设置:标题中含?作者是?摘要中含? 有条件要求情况下,怎么处理索引来支持检索?参数化索引。一篇文档,可能含有:标题,摘要,作者,正文等各个部分。不同的部分看做不同的:域(任意自由文本) ,对不同的域建立域索引例子: william作者的作品,建立域索引;支持查询"标题出现merchant,作者有william,正文中存在短语gentl r原创 2017-08-01 19:09:07 · 2068 阅读 · 0 评论 -
第七章 一个完整搜索系统中的评分计算
7.1快速评分及排序思想:把查询向量看成是1,,这样的话,计算query和文档d的余弦相似度时,只需要累加文档d的权重即可7.1.1 非精确的返回前k偏文档的方法思想:1)先找一个文档集合A;条件是包含很多和前k偏文档得分相近的文档;K2)返回集合A中的得分最高的前K篇文档;7.1.2 索引去除技术思想:1)在倒排中查询字典时,词项idf值超过一定阀值的文档被留下;小于阀值原创 2017-10-18 12:59:12 · 830 阅读 · 0 评论