《信息检索导论》(第五章)索引压缩

本文介绍了索引压缩技术的优点,包括提高缓存利用率和数据传输速度,并探讨了有损与无损压缩的区别及其应用场景。此外,还介绍了语言统计学中的三大定律——Heap定律、Zipf定律和Benford定律,以及词典压缩和倒排记录表压缩的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

索引压缩的优点:

① 增加高速缓存(catching)技术的利用率;
② 加快数据从磁盘到内存的传输速度;
压缩技术分为有损压缩无损压缩,无损压缩是指压缩后所有的原始信息都被保留下来,当有损压缩损失的信息不被检索系统检索到时,有损压缩是有意义的。对于Web检索来说,文档数目大、查询时间短、用户只关注前几页的特点等等;
语言统计学三大定律:Heap定律、Zipf定律、Benford定律;
其中,Heap定律用于词项数目M的估计,将词项数目表示成文档集大小的一个函数,T为文档集中的词条数目,k,b为参数,文档集词条数目T与词汇量M在对数空间下为线性关系:
M=kTb
Zipf定律是常用的估计词项在文档中分布的模型,出现第i多的词项的频率与1/i成正比;
Benford定律是指自然形成的十进制数据中,任何一个数据的第一个数字为d的概率近似为log10(1+1/d),Benford定律常用在数据是否造假的检验上;

词典压缩:

① 将整个词典排序后看作成单一的字符串,同时每个词项在结束位都有一个指向下一个词项开头的指针用来标记词项结束;
② 将方法①中的字符串分成大小相同的块(假设k个),每个块保留第一个词项的指针,除此之外,每个词项保留一个字节来存储每个词项长度,方法①查询原理采用的是二分查找法,在分块之后,在使用二分查定位到块后,在块内使用的是线性查找;

倒排记录表压缩:

①可变字节码(variable byte):对于倒排记录表中的文档ID,由于出现某个词项的文档ID往往距离不大,将文档ID换成与上一篇文档ID的差值来存储文档位置,VB(variable byte)利用字节来对间距编码,字节的后七位为有效编码区,第一位是延续位,若为1,则表示是间距编码的最后一位,否则为0;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值