
MG-Managing Gigabyte
文章平均质量分 79
fxjtoday
这个作者很懒,什么都没留下…
展开
-
查询
查询 就是如何利用建好的索引来找到想要的文本,那么会介绍两种查询,一种是布尔查询(Boolean Query),另一种是排名查询(Ranked Query).布尔查询 包含了一个术语列表,这些术语通过布尔操作符相连(and,or,not),查询的答案是满足规定条件的文档。 布尔查询的缺点是会不可避免的返回很多无关的答案,而且查询一些小的变动会导致结果完全不同。因为布尔查询是机械的,必须精确匹配布尔表达式的文档才是候选结果。 如‘data AND compression’ 和 ‘text AND co原创 2010-07-23 16:41:00 · 2099 阅读 · 1 评论 -
Managing Gigabytes--文本压缩
开门见山,文本压缩可以归纳为两大类, 符号方法和字典方法, 下面分别介绍下:1)符号方法,symbolwise method普通编码方式是每个字符都采用相同位数编码, 比如asc码, 每个字符都是8位编码。那么现在要压缩,就是要用更少的位数来表示字符。显而易见, 我们只须用较小的位数来表示高概率字符, 用较长的位数来表示低概率字符,这样平均下来就可以实现压缩。那么这里面就有两个点:a)怎么来确定每个待编码字符的概率,这就是概率模型问题。所谓概率模型就是为编码器提供的概率分布函数,我们必须保证编码器,和解码器原创 2010-05-31 15:51:00 · 2277 阅读 · 0 评论 -
索引构造
顾名思义这章就是要谈怎样构造索引的问题,或者说在有限内存和有限时间内,怎么样高效的对大数据集构造索引文件。一旦有了这个索引文件,那么索引的压缩,基于索引的排序,前面的章节都已经讲过。链接列表先来看看最一般的方法,在内存中构建这样的数据结构,包含一个term字典,这个字典本身可以用数组,hash表,二分查找树来实现,字典中的每项,都包含一个指向term的倒排列表的指针,那么对于一个term的倒排列表一般用单项链表来实现,因为这个是动态的,就是说每一项包含文档号,文档内频率,和下一项指针。然后遍历每一篇文档,对原创 2010-08-06 17:47:00 · 1463 阅读 · 0 评论 -
索引
在这个信息爆炸的年代, 信息索引的重要性不言而喻。现在主要的索引结构就是倒排索引,又称为记录文件(posting file),词汇索引(concordance)。 其他的还有签名文件(signature file), 和 位图(bitmap)。 倒排索引在结构上分为,倒排列表(inverted list)和字典, 倒排列表就是记录一列指针, 每个指针表示了术语所在的文档的编号,甚至是在文档中的位置。 而字典就是记录了术语和倒排列表的对应关系。 举个例子,cold (2;1,4)表示cold这个词出现原创 2010-06-21 17:37:00 · 1067 阅读 · 0 评论