Lucene 索引

最新推荐文章于 2020-03-14 16:30:48 发布

转载最新推荐文章于 2020-03-14 16:30:48 发布 · 698 阅读

文章标签：

#lucene

Lucene 专栏收录该内容

5 篇文章

订阅专栏

Lucene的核心索引类：

1、IndexWriter：建立索引的核心组件。

2、Directory：代表一个lucene索引项的位置。

3、Analyzer：对文本内容进行分析的抽象类，具体实现中有停用词切除、词干分析、大小写切换等功能。

4、Document：可以视作文本经过处理后所对应的对象，由多个字段组成，如路径、标题、摘要、修改日期等等。

5、Field：字段，对应于文本的某一部分数据，便于检索时根据结果提取。早期版本分为四个类型：Keyword、UnIndexed、UnStored和Text，其主要区别归结于三个方面：是否被分析，是否被索引，是否存储于索引中。但是在最新版本的Lucene中，使用了一种更为统一的形式，也即只有Field一个类，然后使用一些参数来描述这个字段的属性，通过参数组合，可以组合出各种类别，甚至那四种不存在的类别理论上也是可以组合出来。

public Field (String name, String value, Store store, Index index)

下面来看一个例子代码：

[java]view plaincopy 
   
 package com.qianyan.luceneIndex;  
   
 import java.io.IOException;  
   
   
 import org.apache.lucene.analysis.Analyzer;  
 import org.apache.lucene.analysis.standard.StandardAnalyzer;  
 import org.apache.lucene.document.Document;  
 import org.apache.lucene.document.Field;  
 import org.apache.lucene.index.IndexWriter;  
 import org.apache.lucene.store.Directory;  
 import org.apache.lucene.store.FSDirectory;  
   
 public class IndexTest {  
   
     public static void main(String[] args) throws IOException{  
       
         String[] ids = {"1", "2", "3"};  
         String[] names = {"zhangsan", "lisi", "wangwu"};  
         String[] addresses = {"shanghai", "beijing", "guangzhou"};  
         Analyzer analyzer = new StandardAnalyzer();  
         String indexDir = "E:/luceneindex";  
         Directory dir = FSDirectory.getDirectory(indexDir);  
         //true 表示创建或覆盖当前索引；false 表示对当前索引进行追加  
         //Default value is 128  
         IndexWriter writer = new IndexWriter(dir, analyzer, true, IndexWriter.MaxFieldLength.LIMITED);  
         for(int i = 0; i < ids.length; i++){  
             Document document = new Document();  
             document.add(new Field("id", ids[i], Field.Store.YES, Field.Index.ANALYZED));  
             document.add(new Field("name", names[i], Field.Store.YES, Field.Index.NOT_ANALYZED));  
             document.add(new Field("address", addresses[i], Field.Store.YES, Field.Index.ANALYZED));  
             writer.addDocument(document);  
         }  
         writer.optimize();  
         writer.close();  
     }  
       
 }  

运行后查看 E:/luceneindex 会看到生成的索引文件。

删除索引：

[java]view plaincopy 
   
 package com.qianyan.luceneIndex;  
   
 import java.io.IOException;  
   
 import org.apache.lucene.index.IndexReader;  
 import org.apache.lucene.index.Term;  
 import org.apache.lucene.store.Directory;  
 import org.apache.lucene.store.FSDirectory;  
   
 public class TestDelDocument {  
   
     public static void main(String[] args) throws IOException{  
         String indexDir = "E:/luceneindex";  
         Directory dir = FSDirectory.getDirectory(indexDir);  
         IndexReader reader = IndexReader.open(dir);  
         System.out.println(reader.maxDoc());  
         //直接根据序号删除索引 注：从0开始  
         //reader.deleteDocument(0);  
         //根据索引值名删除索引  
         //reader.deleteDocuments(new Term("id", "3"));  
         System.out.println(reader.numDocs());  
         reader.close();  
         dir.close();  
     }  
 }  

取消删除标记索引：

[java]view plaincopy 
   
 package com.qianyan.luceneIndex;  
   
 import java.io.IOException;  
   
 import org.apache.lucene.index.IndexReader;  
 import org.apache.lucene.index.Term;  
 import org.apache.lucene.store.Directory;  
 import org.apache.lucene.store.FSDirectory;  
   
 public class UnDeleteDocument {  
   
     public static void main(String[] args) throws IOException {  
         String indexDir = "E:/luceneindex";  
         Directory dir = FSDirectory.getDirectory(indexDir);  
         IndexReader reader = IndexReader.open(dir);  
           
         System.out.println("before delete:" + reader.numDocs());  
           
         reader.deleteDocuments(new Term("id", "1"));  
         System.out.println("after delete:" + reader.numDocs());  
           
         reader.undeleteAll();  
         System.out.println("after undelete:" + reader.numDocs());  
           
         reader.close();  
         dir.close();  
           
     }  
 }  

修改索引（注：在lucene里修改意味着删除后添加）

[java]view plaincopy 
   
 package com.qianyan.luceneIndex;  
   
 import java.io.IOException;  
   
 import org.apache.lucene.analysis.Analyzer;  
 import org.apache.lucene.analysis.standard.StandardAnalyzer;  
 import org.apache.lucene.document.Document;  
 import org.apache.lucene.document.Field;  
 import org.apache.lucene.index.IndexReader;  
 import org.apache.lucene.index.IndexWriter;  
 import org.apache.lucene.index.Term;  
 import org.apache.lucene.store.Directory;  
 import org.apache.lucene.store.FSDirectory;  
   
 public class UpdateDocument {  
   
     public static void main(String[] args) throws IOException{  
         Analyzer analyzer = new StandardAnalyzer();  
         String indexDir = "E:/luceneindex";  
         Directory dir = FSDirectory.getDirectory(indexDir);  
         IndexReader reader = IndexReader.open(dir);  
           
         System.out.println("before delete : " + reader.numDocs());  
         reader.deleteDocuments(new Term("id", "2"));  
         System.out.println("after delete : " + reader.numDocs());  
         reader.close();  
           
         IndexWriter writer = new IndexWriter(dir, analyzer, false, IndexWriter.MaxFieldLength.LIMITED);  
         Document document = new Document();  
         document.add(new Field("id", "2", Field.Store.YES, Field.Index.ANALYZED));  
         document.add(new Field("name", "Tom", Field.Store.YES, Field.Index.ANALYZED));  
         document.add(new Field("address", "tianjin", Field.Store.YES, Field.Index.ANALYZED));  
         writer.addDocument(document);     
         writer.close();  
           
         reader = IndexReader.open(dir);  
         System.out.println("after add : " + reader.numDocs());  
           
         dir.close();  
         reader.close();  
     }  
 }