Lucene40SkipListWriter

最新推荐文章于 2021-11-16 22:39:47 发布

weixin_33790053

最新推荐文章于 2021-11-16 22:39:47 发布

阅读量78

点赞数

文章标签：数据结构与算法

本文深入探讨了多级跳跃表在tim文件中的应用，包括其内部结构、工作原理以及如何通过几个关键方法（如resetSkip、setSkipData、bufferSkip和writeSkip）来管理和操作数据。它特别关注了如何利用RAMOutputStream缓存不同级别的跳跃表内容，以及在数据处理过程中的高效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多级跳跃表是保存在tim文件里的。

tip是term index,tim是term dictionary。记忆方法是,p是pointer因此是term index。

这个类会保存多个level的last变量和cur变量,同一时候使用RAMOutputStream数组缓存不同级别跳跃表的内容,一个term的全部doc加入�完后才写入tim文件。几个主要方法:

resetSkip:几个last变量重置,lastSkipFreqPointer和lastSkipProxPointer赋值为freq和prox文件的当前长度。发生在上一个term结束,下一个term開始时。

setSkipData:设置几个current变量,curFreqPointer和curProxPointer赋值为freq和prox文件的当前长度。

bufferSkip:按例如以下内容缓存进入不同级别的RAMOutputStream中:

(docDelta << 1) | 1 LastPayloadLength LastOffsetLength freqDelta proxDelta child

当中child是低一级的跳跃表指针。(docDelta是否shift,是否保存lastpayloadLength和lastoffsetlength看详细情况）。能够看出跳跃表是个单链表结构，假设按dicid从小到大递增，则总是指向小一个interval的位置,按dicid从大到小递减，则总是指向大一个interval的位置。lastpayloadlength和lastoffsetlength是跳跃表上一个节点最后一个position的信息，之所以保存是能够得到上个位置最后一个position的信息，但并不能因此反向遍历position列表。

writeSkip:缓存的多级跳跃表的RAMOutputStream写入tim文件里，写入时按级别从高到低写入，先是长度，然后是整个buffer,level 0不用写长度。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。