
信息检索
分布式数据管理
这个作者很懒,什么都没留下…
展开
-
《信息检索导论》(第五章)索引压缩
索引压缩的优点:① 增加高速缓存(catching)技术的利用率;② 加快数据从磁盘到内存的传输速度;压缩技术分为有损压缩与无损压缩,无损压缩是指压缩后所有的原始信息都被保留下来,当有损压缩损失的信息不被检索系统检索到时,有损压缩是有意义的。对于Web检索来说,文档数目大、查询时间短、用户只关注前几页的特点等等;语言统计学三大定律:Heap定律、Zipf定律、Benford定律;其中,Heap定律用原创 2017-08-08 16:46:03 · 1042 阅读 · 0 评论 -
《信息检索导论》(第四章)索引构建
信息检索索引构建-动态索引构建、内存式单遍扫描索引构建(SPIMI)、分布式索引构建(以MapReduce为例)、基于块的排序索引(BSBI)原创 2017-08-03 15:29:06 · 1244 阅读 · 0 评论 -
信息检索导论(第二章) 词项词典及倒排记录表
文档字符生成过程中存在编码识别问题,一般通过启发式的机器学习手段来识别或者手工选择方式来解决;文档的“单位”:文档单位即“索引粒度”的设定往往需要根据实际情况的需求设定,粒度过大或者过小都有弊端,粒度过小,词汇都被包含在篇幅很小的段落中,遗漏了其余相关的段落后导致正确率高召回率低,粒度过大,正确率低召回率高;词条化:将给定的字符序列拆分成一系列的子序列的过程,其中的每个子序列称作词条;原创 2017-07-26 15:24:58 · 1108 阅读 · 0 评论