索引压缩的优点: ① 增加高速缓存(catching)技术的利用率; ② 加快数据从磁盘到内存的传输速度; 压缩技术分为有损压缩与无损压缩,无损压缩是指压缩后所有的原始信息都被保留下来,当有损压缩损失的信息不被检索系统检索到时,有损压缩是有意义的。对于Web检索来说,文档数目大、查询时间短、用户只关注前几页的特点等等; 语言统计学三大定律:Heap定律、Zipf定律、Benford定律; 其中,Heap定律用于词项数目M的估计,将词项数目表示成文档集大小的一个函数,T为文档集中的词条数目,k,b为参数,文档集词条数目T与词汇量M在对数空间下为线性关系: M=k∗Tb Zipf定律是常用的估计词项在文档中分布的模型,出现第i多的词项的频率与1/i成正比; Benford定律是指自然形成的十进制数据中,任何一个数据的第一个数字为d的概率近似为log10(1+1/d),Benford定律常用在数据是否造假的检验上; 词典压缩: ① 将整个词典排序后看作成单一的字符串,同时每个词项在结束位都有一个指向下一个词项开头的指针用来标记词项结束; ② 将方法①中的字符串分成大小相同的块(假设k个),每个块保留第一个词项的指针,除此之外,每个词项保留一个字节来存储每个词项长度,方法①查询原理采用的是二分查找法,在分块之后,在使用二分查定位到块后,在块内使用的是线性查找; 倒排记录表压缩: ①可变字节码(variable byte):对于倒排记录表中的文档ID,由于出现某个词项的文档ID往往距离不大,将文档ID换成与上一篇文档ID的差值来存储文档位置,VB(variable byte)利用字节来对间距编码,字节的后七位为有效编码区,第一位是延续位,若为1,则表示是间距编码的最后一位,否则为0;