信息检索导论2

本文介绍了信息检索系统中使用的各种索引与压缩技术,包括词典压缩方法如前端编码、最小完美哈希,以及倒排记录表压缩技术如可变字节编码、γ编码和δ编码等。

5.索引压缩

  有损压缩:大小写转换,词干还原、停用词剔除、向量空间模型、LSA(隐性语义分析)等;

  无损压缩:(下面介绍的压缩方法)

  Heaps定律:词项数目的估计---M=kT^b(M-词项数,T-文档集合中词条个数,30《k《100,b=0.5)

  Zipf定律:词项在文档中分布的估计---排名第i多的词项的文档集频率与1/i成正比,例如:如果出现第一多的词项出现次数是cf1,那么出

        现第二多的词项出现次数就是cf1/2。用于倒排记录表压缩时的词项分布建模。

       其他有关词项分布的模型:K混合模型,双泊松模型(见15)

      词典压缩:1.词典采用定长数组存储所有词项按照词典序排序,但这样会造成空间浪费,如每个词项都采用20B的固定长度

        解决办法:将所有项存成一个长字符串,给每个词项增加一个定位指针;

        2.按块存储:对1进一步的压缩,将长字符串中的词项分组变成大小为k的块(即k个词项一组),然后对每个块只保留第一个

        词项的指针,对每个块而言减少了k-1个指针,但需要额外的kB保存k个词项的长度。、

            3.前端编码:对2进一步的压缩,按照词典顺序排序的连续词项之前往往具有公共前缀,公共前缀被识别出来之后,后续词项

        可以使用一个特殊的字符来表示这段前缀

         4.更高效的压缩率方法:最小完美哈希---将M个词项映射到[1,…,M]上(无法在动态环境下使用)

   倒排记录表的压缩:高频词出现的文档ID序列间距很小,用20bit位数表示;对于低频词间距很大,也用20bit表示,这造成空间浪费。

            对小数字采用比大数字更短的编码方式,采用两种方法:按字节压缩(1)及按位压缩(2,3)。

        1.VB(可变字节):利用整数个字节对间距编码,字节第1位是延续位,表明本字节是某个间距编码的开始或结束,后7位

                  是间距的有效编码区。

            磁盘空间不紧张的情况下采用VB编码,或采用位对齐的二元编码。

        2.γ编码:更细的位粒度上进行编码长度的自适应调整。?P69

        3.δ编码

            大数字(大于15)占主要地位时,δ编码优于γ编码;大规模文档集上,采用Golomb编码更优。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值