Lucene学习总结之Lucene的索引文件格式-优快云博客

本文链接：https://blog.youkuaiyun.com/MANONGDKY/article/details/133559426

本文详细介绍了Lucene的索引结构，包括索引、段、文档、域和词等概念，以及基本数据类型和存储规则。通过前缀后缀规则、差值规则、或然跟随规则和跳跃表规则，Lucene有效地节省存储空间并提高搜索速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

当我们真正进入到Lucene源代码之中的时候，我们会发现:

下图就是Lucene生成的索引的一个实例：

Lucene的索引结构是有层次结构的，主要分以下几个层次：

索引(Index)：
- 在Lucene中一个索引是放在一个文件夹中的。
- 如上图，同一文件夹中的所有的文件构成一个Lucene索引。
段(Segment)：
- 一个索引可以包含多个段，段与段之间是独立的，添加新文档可以生成新的段，不同的段可以合并。
- 如上图，具有相同前缀文件的属同一个段，图中共两个段 "_0" 和 "_1"。
- segments.gen和segments_5是段的元数据文件，也即它们保存了段的属性信息。
文档(Document)：
- 文档是我们建索引的基本单位，不同的文档是保存在不同的段中的，一个段可以包含多篇文档。
- 新添加的文档是单独保存在一个新生成的段中，随着段的合并，不同的文档合并到同一个段中。
域(Field)：
- 一篇文档包含不同类型的信息，可以分开索引，比如标题，时间，正文，作者等，都可以保存在不同的域里。
- 不同域的索引方式可以不同，在真正解析域的存储的时候，我们会详细解读。
词(Term)：
- 词是索引的最小单位，是经过词法分析和语言处理后的字符串。

Lucene的索引结构中，即保存了正向信息，也保存了反向信息。

所谓正向信息：

按层次保存了从索引，一直到词的包含关系：索引(Index) –> 段(segment) –> 文档(Document) –> 域(Field) –> 词(Term)
也即此索引包含了那些段，每个段包含了那些文档，每个文档包含了那些域，每个域包含了那些词。
既然是层次结构，则每个层次都保存了本层次的信息以及下一层次的元信息，也即属性信息，比如一本介绍中国地理的书，应该首先介绍中国地理的概况，以及中国包含多少个省，每个省介绍本省的基本概况及包含多少个市，每个市介绍本市的基本概况及包含多少个县，每个县具体介绍每个县的具体情况。
如上图，包含正向信息的文件有：
- segments_N保存了此索引包含多少个段，每个段包含多少篇文档。
- XXX.fnm保存了此段包含了多少个域，每个域的名称及索引方式。
- XXX.fdx，XXX.fdt保存了此段包含的所有文档，每篇文档包含了多少域