本文的代码以lucene-core 6.3.0为准,倒排索引的基本信息和Lucene50PostingsFormat 等整个类所有代码的解析。转载请注明出处。
0 基本概念
- 在lucene中,有相当多的时候需要存正整数的数组,当这个数组比较大的时候,需要分块存储,有两种方式,第一种是整数数量固定数量(128)的block,就是Packed Blocks,每个整数占用相同的字节数,然后把每个block用PackedInts来压缩,为了达到压缩的效果,每个元素都存它本身和前一个元素的差值delta;第二种是整数数量不固定(小于128)的block,就是VInt Blocks,每个整数用VInt的方式存。
- lucene中经常需要同时用到两种block的存储方式,比如存docID列表,假设列表长度是259,那么这可以存2个Packed Blocks,剩余3个整数用VInt Blocks存。
- 跳表的跳跃间隔是BLOCK_SIZE(128),跳跃点会存每个docId的block的第一个docId,当然,第一个block就不需要设置跳跃点。
- 详细的倒排索引源码分析可以看Lucene源码分析 - Lucene50PostingsWriter 存储倒排索引
1 词项词典(Term Dictionary)
- 倒排索引的基本结构是term->文档ID列表,但是lucene中不是存文档ID列表,而是存term在的.doc,.pos,.pay三个文件的偏移量以及term的统计信息(tf,df)。这些数据存在.tim的文件中,这就是词项词典(Term Dictionary)。想详细了解可以看下这篇[Lucene源码分析 - BlockTreeTermsWriter 存储词典(Term Dictionary)与索引(Term Index)]。(https://blog.youkuaiyun.com/wang_hnust/article/details/88361568)
2 词项索引(Term Index)
- lucene所有的term存在磁盘上,如果term的数量非常大,为了快速定位到某个term的位置,需要对term建个索引,就是词项索引(Term Index),lucene用的是FST(Finite State Transducer)这种结构。在FST中,某个term的
output
的就是这个term对应的词典文件的偏移量。这些数据存在.tip文件中。
3 doc文件的内容(Frequencies and Skip Data)
- doc文件存的term所对应的docID列表,Freq(词项频率,如果设置了IndexOptions.DOCS就不会存),和跳表。磁盘的存储格式是:n个(docId列表的Packed Blocks,Freq的Packed Blocks),0或者1个VInt Blocks,level层跳表。
- docId列表的Packed Blocks存的是docId的delta值,Freq则直接存freq的值。
- 如果最后一个docId的block不够128个元素,那么就会存一个VInt Blocks。
- 最后一个VInt Blocks有两种存储形式,第一种是不需要存Freq的时候,VInt Blocks只包含docId的delta;第二种是存Freq的时候,如果Freq的值等于1,那么存(delta * 2 + 1),如果Freq的值大于1,那么存(delta*2,freq)。
- 跳表的存储格式是(level的长度,level的字节数组)level > 0,(level 0的字节数组),详细的源码分析可以跳到我的另一篇Lucene源码分析 - Lucene50SkipWriter 构建跳表
。
4 pos文件的内容(Positions)
- pos文件存的是term在文档中出现的位置。磁盘的存储格式是:n个position的Packed Blocks,0或者1个VInt Blocks。
- position的Packed Blocks存的是position的delta值(posDelta)。
- 如果最后一个position的block不够128个元素,那么就会存一个VInt Blocks。
- 最后一个VInt Blocks有两种存储形式,第一种是不需要存payload的时候,VInt Blocks只包含posDelta;第二种是存payload的时候,存储的内容是:<PositionDelta, PayloadLength?, PayloadData, OffsetDelta, OffsetLength?>,如果PositionDelta等于(posDelta * 2 + 1),则PayloadLength会被存下,如果PositionDelta等于(posDelta*2),则当前PayloadLength跟前一个的值一样,不会存下。OffsetDelta的存储形式和PositionDelta相同。
5 pay文件的内容(Payloads and Offsets)
- pay文件存的是term在文档中的起始偏移量(startOffset),OffsetLength(endOffset - startOffset)和payload的字节数组。磁盘的存储格式是:n个(payload长度)的Packed Blocks,payload长度的和(SumPayLength),payload的字节数组(PayData),n个startOffset的Packed Blocks,n个OffsetLength的Packed Blocks。
- pay不需要存VInt Blocks,因为最后的VInt Blocks已经存到pos文件中了。