lucuene索引文件介绍

最新推荐文章于 2021-08-06 13:20:52 发布

原创最新推荐文章于 2021-08-06 13:20:52 发布 · 156 阅读

0 ·

CC 4.0 BY-SA版权

搜索引擎专栏收录该内容

7 篇文章

订阅专栏

没优化之前的索引文件包含了一系列的文件，其中每个文件的功能对应如下。

1.segments_* 文件描述一组索引的参数，使用头文件固定格式描述后面的内容，包括每个独立新建索引的大小、属性等。

2.Fnm文件是索引域的描述文件，一个独立的索引（PerIndex）叫做一个Segment（索引段），一个fnm文件描述了本索引的File数，各个Field的属性编号。

3.fdx文件是文档索引域值索引文件，采用定长方式储存，根据docid排序可直接定位，用来记录每个文档的stord fields值的储存的位置（文件偏移）。

4.Fdt文件是文档域值存储文件，存储stored fields值的文件。通过fdk中记录的偏移访问。

5.tis文件是存储每个term在文档中的分布信息。如文档频率、每个term文档出现次数记录的偏移和位置记录的偏移排列顺序。先按Field名字字典排序，在每个Field按term字典排序。

6.tii文件是tis文件的索引和精简，排列格式是一样的，但是不包含有每个term属性的信息。这个文件可以完全读入内存。

7.frp文件是tis文件的扩展。记录每个term在每个包含文档的具体出现频率。

9.prx文件是tis文件的延伸，记录每个term在每个文档的偏移信息。这个文件省略了docid，必须配合frp文件使用。

10.tvx、tvd、tvf用来索引和保持每个文档的向量化字段的信息。