lucene 的frq 存放的是搜索引擎中的doclist,主要保存了docid以及该id 出现的次数,当然为了加快检索,里面还建立的一个跳排表,我们这些进行详细介绍。
一 docid 和 频率
如果简单的来想,这块的内容可以很简单,就是一个 (docid+ freq ) 一个序列 : docid1, freq1 ,docid2, freq2 , docid3, freq3 ................
但是lucene 对这块进行了优化,节省很多的空间。
首先引用别人的分析,讲的很详细:http://forfuture1978.iteye.com/blog/546841
我们回过头再看看源代码:
lucene/index/FormatPostingsDocsWriter.java
1 计算docid 差值
2 根据是否frq以及frq值做不通的处理
二 跳表
这款暂时还不是很懂,以后学习了再些