lucene索引结构(一)--segment元数据信息

最新推荐文章于 2024-04-26 11:52:46 发布

原创

最新推荐文章于 2024-04-26 11:52:46 发布 · 1.1w 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#lucene #diagnostics #generation #文档 #string #file

本文深入探讨Lucene的索引结构，重点关注Segment元数据信息，包括Format、NameCounter、SegCount、SegSize等关键字段，以及DelGen、NormGen等版本信息。同时，解释了Diagnostics、IsCompoundFile等相关属性，揭示了Lucene如何存储和管理文档信息。

今天起开始深入分析Lucene 3的索引结构。那就从最初步的段索引开始搞吧。

1. 建立索引

开始分析之前必须要创建索引，这里图省事啦，也没有去网上找什么文档集。直接拿lucene的doc来索引的，这是一堆html的文件，

这里只索引了文件的路径、最后修改时间和内容。

  doc.add(new Field( "path", f.getPath(), Field.Store.YES, Field.Index.NOT_ANALYZED ));
  doc.add(new Field("modified",
     	DateTools. timeToString(f.lastModified(), DateTools.Resolution.MINUTE ),
        Field.Store. YES, Field.Index. NOT_ANALYZED));
  BufferedReader br = new BufferedReader(read);
  doc.add(new Field("contents", br));

2.索引文件

经过索引之后得到的文件如下。

在建索引的程序中，必须要调用

writer.setUseCompoundFile( false);

 
      
       
        
       
       
        
       
       
       否则只能得到segment文件和.cfs文件。 
       
       
        
       
       
       .cfs文件实际上是一个虚拟文件，它将.fdt,.fdx,.fnm,frq,.nrm,.prx,.tii,.tis等等文件打包成了一个单一文件。 
       
       
       因为随着系统的不断运行，索引文件会越变越多，需要同时打开多个文件句柄，在一些文件系统中会导致文件句柄不够用，而打包成复合文件后，可以缓解这种情况。 
       
       
       这是官方文档对.cfs文件的解释，" An optional "virtual" file consisting of all the other index files for systems that frequently run out of file handles. " 
       
       
        
       
       
       为了方便分析，这里将默认生成复合文件关闭。 
       
       
        
       
      
      
       
      
      
      
      
      
       
        
        3.segments.gen文件分析 
        
        
        3.1 作用 
        
       
       
        
        要说清楚segments.gen的作用，就必须先说Lucene是怎么在多个segments_N中进行选择的。 
        
        
         
        
        
        随着索引的文件发生变化，比如删除索引等，会使得index中存在多个segments_N，一些older generation的索引暂时不能被删掉，例如正在提交的索引或是一些自定义策略如IndexDeletionPolicy的使用。而程序打开索引的时候，只能选择一个generation打开。 
        
        
        Lucene每次都会选最大N对应的segments索引的打开。 
        
       
         <