Lucene41PostingWriter源码分析

本文介绍了 Lucene 4.1 版本中引入的 for 编码 postingsformat 如何通过优化查询处理流程,实现对于常见 boolean and query qps 提升约 20% 的性能效果。重点阐述了 tip 文件中 TermState 的状态存储方式及 Lucene 在不同文件中的数据输出策略,包括 doc、freq、pos、pay 文件的更新机制。

原来看lucene4.0的posting格式(http://blog.youkuaiyun.com/jollyjumper/article/details/30017581),发现这还是比较简单的VInt格式,据说VInt压缩解压都不错(medium),但解压时分支太多打乱CPU流水线因而不够高效,流行的索引压缩有很多,for,simple9,simple16,PForDelta是比较流行的一种,发现lucene 4.1就实现了一个for编码的postings format。从lucene nightly build(lucene ci)结果上看,这个change对于常见的boolean and query qps有大约20%的提升。

tip文件中保存的TermState有以下几个状态:

docStartFP和上个termstate.docStartFP的差值,

payStartFP的差值,

singletonDocID(只有一个doc时才保存,不然是-1),

lastPosBlockOffset(上一个pos块的位置),

skipoffset

4.0中除了向tip,tim文件中写入内容外,就是向freq和prox两个文件输出。doc delta,doc freq是往doc文件输出,pos向pos文件中输出,payload,offset向pay文件中输出。

doc文件中每加128个doc,缓存对应doc delta buffer和freq buffer,使用for encoding写入doc文件(ForUtil),最后生育的不足128个的doc按照vint写入。

添加position时,同样时每128个position一个block,posDeltaBuffer写入pos文件中,payloadLengthbuffer同样一个block写入payload文件中,接着跟着payload长度(vint)和payload数组,然后是offsetStartDeltaBuffer和offsetLengthBuffer,因此offset在这个版本中归入payload中。

Lucene41SkipWriter没有什么特别不一样的地方,其中lastPayloadByteUpto数组其实没有用到。最低一级的跳跃表是block指针,因此最小可跳跃长度从16变成了128.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值