lucene4.5近实时搜索

最新推荐文章于 2020-05-06 20:23:46 发布

zhaoxiao

最新推荐文章于 2020-05-06 20:23:46 发布

阅读量4.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： lucene

本文链接：https://blog.youkuaiyun.com/zhaoxiao2008/article/details/14445933

lucene 专栏收录该内容

2 篇文章

订阅专栏

Lucene 4.5引入了近实时搜索，允许在不关闭IndexWriter或提交的情况下搜索索引更新，显著提高了效率。之前，必须调用writer的commit方法并重新打开reader，这是一个耗时的过程，涉及文件同步。近实时搜索降低了系统资源消耗，使得新创建但未提交的索引可以被搜索。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

近实时搜索就是他能打开一个IndexWriter快速搜索索引变更的内容，而不必关闭writer，或者向writer提交，这个功能是在2.9版本以后引入的，在以前没有这个功能时，必须调用writer的commit方法，然后重新打开reader，这个过程很耗费时间，因为writer的提交必须对索引里的所有新文件进行同步，同步操作耗费系统资源，近实时搜索使我们能够对新创建还未提交的索引进行搜索。

在4.5的版本上做一个简单的测试示例，参考lucene in action

import junit.framework.TestCase;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.FieldType;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.*;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;


public class NearRealTimeTest extends TestCase {
  public void testNearRealTime() throws Exception {
    Directory dir = new RAMDirectory();
    IndexWriterConfig config =  new IndexWriterConfig(Version.LUCENE_45,new StandardAnalyzer(Version.LUCENE_45));
    IndexWriter writer = new IndexWriter(dir, config);
      FieldType fieldType = new FieldType();
      fieldType.setIndexed(false);//set 是否索引
      fieldType.setStored(false);//set 是否存储
      fieldType.setTokenized(true);//set 是否分类
      fieldType.setOmitNorms(false);
    for(int i=0;i<10;i++) {
      Document doc = new Document();
      doc.add(new Field("id", ""+i, fieldType));
      doc.add(new Field("test", "aaa", TextField.TYPE_NOT_STORED));
      writer.addDocument(doc);
    }
    //IndexReader reader = writer.getReader();                 // 老版本的  3.x
    DirectoryReader reader = DirectoryReader.open(writer,true);   //创建近实时reader
    IndexSearcher searcher = new IndexSearcher(reader);   //将reader封装在IndexSearcher

    Query query = new TermQuery(new Term("test", "aaa"));
    TopDocs docs = searcher.search(query, 1);
    assertEquals(10, docs.totalHits);                        // 返回10个搜索结果

    writer.deleteDocuments(new Term("id", "7"));             // 删除一个文档

    Document doc = new Document();

    doc.add(new Field("id", "11",  fieldType));
    doc.add(new Field("test", "bbb",  TextField.TYPE_NOT_STORED));
    writer.addDocument(doc);
    
    //IndexReader newReader = reader.reopen();                 //老版本3.x
    IndexReader newReader = DirectoryReader.openIfChanged(reader,writer,true);   //重启reader
    reader.close();
    assertFalse(reader == newReader);
    reader.close();
    searcher = new IndexSearcher(newReader);

    TopDocs hits = searcher.search(query, 10);
    assertEquals(9, hits.totalHits);

    query = new TermQuery(new Term("text", "bbb"));
    hits = searcher.search(query, 1);
    assertEquals(1, hits.totalHits);

    newReader.close();
    writer.close();
  }
}

可以看到更新文档后用 DirctoryReader.openIfChanged来获取Reader，如果有新内容，则返回新的Reader，这时我们需要关闭老的Reader。

最后测试通过