luence全文检索本地磁盘,可构建磁盘搜索引擎,有代码

我使用的maven添加的jar包。maven中的pom.xml中添加lucene的jar包的方法是: 
Xml代码   收藏代码
  1. <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"  
  2.   xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">  
  3.   <modelVersion>4.0.0</modelVersion>  
  4.   
  5.   <groupId>com.rwg.lucene</groupId>  
  6.   <artifactId>cms</artifactId>  
  7.   <version>0.0.1-SNAPSHOT</version>  
  8.   <packaging>jar</packaging>  
  9.   
  10.   <name>lucene</name>  
  11.   <url>http://maven.apache.org</url>  
  12.   
  13.   <properties>  
  14.     <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>  
  15.   </properties>  
  16.   
  17.   <build>  
  18.     <finalName>webapp</finalName>  
  19.     <sourceDirectory>src/main/java/</sourceDirectory>  
  20.     <testSourceDirectory>src/test/java/</testSourceDirectory>  
  21.     <plugins>  
  22.         <plugin>  
  23.             <groupId>org.apache.maven.plugins</groupId>  
  24.             <artifactId>maven-compiler-plugin</artifactId>  
  25.             <version>2.3.2</version>  
  26.             <configuration>  
  27.                 <source>1.6</source>  
  28.                 <target>1.6</target>  
  29.                 <encoding>UTF-8</encoding>  
  30.             </configuration>  
  31.         </plugin>  
  32.         <plugin>  
  33.             <groupId>org.apache.maven.plugins</groupId>  
  34.             <artifactId>maven-resources-plugin</artifactId>  
  35.             <version>2.4.3</version>  
  36.             <configuration>  
  37.                 <encoding>UTF-8</encoding>  
  38.             </configuration>  
  39.         </plugin>  
  40.         <plugin>  
  41.             <groupId>org.mortbay.jetty</groupId>  
  42.             <artifactId>jetty-maven-plugin</artifactId>  
  43.             <version>8.0.0.M1</version>  
  44.         </plugin>  
  45.         <plugin>  
  46.             <groupId>org.apache.maven.plugins</groupId>  
  47.             <artifactId>maven-eclipse-plugin</artifactId>  
  48.             <version>2.8</version>  
  49.             <configuration>  
  50.                 <addVersionToProjectName>false</addVersionToProjectName>  
  51.                 <useProjectReferences>false</useProjectReferences>  
  52.                 <wtpmanifest>false</wtpmanifest>  
  53.                 <wtpapplicationxml>true</wtpapplicationxml>  
  54.                 <wtpversion>1.6</wtpversion>  
  55.                 <additionalBuildcommands>  
  56.                     <buildcommand>org.eclipse.jdt.core.javabuilder</buildcommand>  
  57.                     <buildcommand>org.eclipse.wst.common.project.facet.core.builder</buildcommand>  
  58.                     <buildcommand>org.eclipse.wst.validation.validationbuilder</buildcommand>  
  59.                 </additionalBuildcommands>  
  60.             </configuration>  
  61.         </plugin>  
  62.         <plugin>  
  63.             <groupId>org.apache.maven.plugins</groupId>  
  64.             <artifactId>maven-war-plugin</artifactId>  
  65.             <version>2.1.1</version>  
  66.             <configuration>  
  67.                 <warName>webapp</warName>  
  68.             </configuration>  
  69.         </plugin>  
  70.     </plugins>  
  71.   </build>  
  72.   
  73.   
  74.   
  75. <dependencies>  
  76.      <!-- 此处是所引用的两个jar包 -->  
  77.         <dependency>  
  78.             <groupId>org.apache.lucene</groupId>  
  79.             <artifactId>lucene-core</artifactId>  
  80.             <version>3.0.2</version>  
  81.             <type>jar</type>  
  82.             <scope>compile</scope>  
  83.         </dependency>  
  84.         <dependency>  
  85.             <groupId>org.apache.lucene</groupId>  
  86.             <artifactId>lucene-demos</artifactId>  
  87.             <version>3.0.2</version>  
  88.             <type>jar</type>  
  89.             <scope>compile</scope>  
  90.         </dependency>  
  91. </dependencies>  
  92.   
  93. </project>  


     如果不是使用的maven的童鞋见附件下载lucene3.0.2的两个jar包。 
    


1:运行第一步(建立索引)代码,目的是:将要搜索的txt文件的内容根据字段替换为索引, 
并将替换后的索引保存到你所指定的文件夹中。 
   简单来说就是:创建索引文件。 
Java代码   收藏代码
  1. package com.rwg.lucene;  
  2.   
  3. import java.io.BufferedReader;  
  4. import java.io.File;  
  5. import java.io.FileNotFoundException;  
  6. import java.io.FileReader;  
  7. import java.io.IOException;  
  8. import java.util.Date;  
  9. import org.apache.lucene.analysis.standard.StandardAnalyzer;  
  10. import org.apache.lucene.document.Document;  
  11. import org.apache.lucene.document.Field;  
  12. import org.apache.lucene.index.IndexWriter;  
  13. import org.apache.lucene.store.FSDirectory;  
  14. import org.apache.lucene.util.Version;  
  15.   
  16. /** 
  17.  * 创建索引 Lucene 3.0(第一步) 
  18.  *  
  19.  * @author RenWeigang 
  20.  *  
  21.  * @version 2010.12.13 
  22.  *  
  23.  */  
  24. public class Indexer {  
  25.       
  26.     //保存索引文件的地方  
  27.     private static String INDEX_DIR = "E:\\renwg\\茶余饭后\\新建文件夹";  
  28.     //将要搜索TXT文件的地方  
  29.     private static String DATA_DIR = "E:\\renwg\\茶余饭后";  
  30.   
  31.     public static void main(String[] args) throws Exception {  
  32.         long start = new Date().getTime();  
  33.         int numIndexed = index(new File(INDEX_DIR), new File(DATA_DIR));  
  34.         long end = new Date().getTime();  
  35.   
  36.         System.out.println("Indexing " + numIndexed + " files took "  
  37.                 + (end - start) + " milliseconds");  
  38.     }  
  39.   
  40.     /** 
  41.      * 索引dataDir下.txt文件,并储存在indexDir下,返回索引的文件数量 
  42.      *  
  43.      * @param indexDir 
  44.      * @param dataDir 
  45.      * @return 
  46.      * @throws IOException 
  47.      */  
  48.     public static int index(File indexDir, File dataDir) throws IOException {  
  49.         if (!dataDir.exists() || !dataDir.isDirectory()) {  
  50.             throw new IOException(dataDir  
  51.                     + " does not exist or is not a directory");  
  52.         }  
  53.         /** 
  54.          * 创建IndexWriter对象, 
  55.          * 第一个参数是Directory,也可以为:Directory dir = new SimpleFSDirectory(new File(indexDir)); 
  56.          * 第二个是分词器, 
  57.          * 第三个表示是否是创建, 
  58.          * 如果为false为在此基础上面修改, 
  59.          * 第四表示表示分词的最大值,比如说new MaxFieldLength(2), 
  60.          * 就表示两个字一分,一般用IndexWriter.MaxFieldLength.LIMITED 
  61.          *      
  62.          */  
  63.         IndexWriter writer = new IndexWriter(FSDirectory.open(indexDir),  
  64.                 new StandardAnalyzer(Version.LUCENE_30), true,  
  65.                 IndexWriter.MaxFieldLength.LIMITED);  
  66.         indexDirectory(writer, dataDir);  
  67.           
  68.         //查看IndexWriter里面有多少个索引   
  69.         int numIndexed = writer.numDocs();  
  70.         writer.optimize();  
  71.         writer.close();  
  72.         return numIndexed;  
  73.     }  
  74.   
  75.     /** 
  76.      * 循环遍历dir下的所有.txt文件并进行索引 
  77.      *  
  78.      * @param writer 
  79.      * @param dir 
  80.      * @throws IOException 
  81.      */  
  82.     private static void indexDirectory(IndexWriter writer, File dir)  
  83.             throws IOException {  
  84.   
  85.         File[] files = dir.listFiles();  
  86.   
  87.         for (int i = 0; i < files.length; i++) {  
  88.             if (files[i].isDirectory()) {  
  89.                 //递归  
  90.                 indexDirectory(writer,files[i]);  
  91.             } else if (files[i].getName().endsWith(".txt")){  
  92.                 indexFile(writer,files[i]);  
  93.             }  
  94.         }  
  95.     }  
  96.   
  97.     /** 
  98.      * 对单个txt文件进行索引 
  99.      *  
  100.      * @param writer 
  101.      * @param f 
  102.      * @throws IOException 
  103.      */  
  104.     private static void indexFile(IndexWriter writer, File f)  
  105.             throws IOException {  
  106.   
  107.         if (f.isHidden() || !f.exists() || !f.canRead()) {  
  108.             return;  
  109.         }  
  110.   
  111.         System.out.println("Indexing " + f.getCanonicalPath());  
  112.         Document doc = new Document();  
  113.         doc.add(new Field("contents"new FileReader(f)));  
  114.         doc.add(new Field("filename", f.getCanonicalPath(), Field.Store.YES,Field.Index.ANALYZED));  
  115.           
  116.         /** 
  117.          * Field.Index有五个属性,分别是:  
  118.          * Field.Index.ANALYZED:分词索引  
  119.          * Field.Index.NOT_ANALYZED:分词进行索引,如作者名,日期等,Rod Johnson本身为一单词,不再需要分词。  
  120.          * Field.Index.NO:不进行索引,存放不能被搜索的内容如文档的一些附加属性如文档类型, URL等。  
  121.          * Field.Index.NOT_ANALYZED_NO_NORMS:不使用分词索引,不使用存储规则。  
  122.          * Field.Index.ANALYZED_NO_NORMS:使用分词索引,不使用存储规则。 
  123.          */  
  124.         writer.addDocument(doc);  
  125.     }  


2:运行第二步(搜索索引),目的是:根据创建索引的字段到所指定的索引文件夹中去寻找要搜索的字符。 
   简单来说就是:从索引文件中查找你想要得到的信息 
Java代码   收藏代码
  1. package com.rwg.lucene;  
  2.   
  3. import java.io.File;  
  4. import java.util.Date;  
  5.   
  6. import org.apache.lucene.analysis.standard.StandardAnalyzer;  
  7. import org.apache.lucene.document.Document;  
  8. import org.apache.lucene.queryParser.QueryParser;  
  9. import org.apache.lucene.search.IndexSearcher;  
  10. import org.apache.lucene.search.Query;  
  11. import org.apache.lucene.search.ScoreDoc;  
  12. import org.apache.lucene.search.TopScoreDocCollector;  
  13. import org.apache.lucene.store.FSDirectory;  
  14. import org.apache.lucene.util.Version;  
  15.   
  16. /** 
  17.  * 搜索索引 Lucene 3.0(第二步) 
  18.  *  
  19.  * @author RenWeigang 
  20.  *  
  21.  * @version 2010.12.13 
  22.  *  
  23.  */  
  24. public class Searcher {  
  25.       
  26.     //保存索引的地方  
  27.     private static String INDEX_DIR = "E:\\renwg\\茶余饭后\\新建文件夹";  
  28.       
  29.     private static String KEYWORD = "青云";  
  30.     private static int TOP_NUM = 100;  
  31.   
  32.     public static void main(String[] args) throws Exception {  
  33.         File indexDir = new File(INDEX_DIR);  
  34.         if (!indexDir.exists() || !indexDir.isDirectory()) {  
  35.             throw new Exception(indexDir  
  36.                     + " does not exist or is not a directory.");  
  37.         }  
  38.   
  39.         search(indexDir, KEYWORD);  
  40.     }  
  41.   
  42.     /** 
  43.      * 查詢 
  44.      *  
  45.      * @param indexDir 
  46.      *        索引目录地址 
  47.      * @param q 
  48.      *         要查询的字符串 
  49.      * @throws Exception 
  50.      */  
  51.     public static void search(File indexDir, String q) throws Exception {  
  52.           
  53.         //创建 IndexSearcher对象,相比IndexWriter对象,这个参数就要提供一个索引的目录就行了     
  54.         IndexSearcher indexSearch = new IndexSearcher(FSDirectory.open(indexDir), true);// read-only  
  55.         //在建立索引时,存在IndexWriter对象中的  
  56.         String field = "contents";  
  57.   
  58.         /** 
  59.          *  创建QueryParser对象, 
  60.          *  第一个参数表示Lucene的版本, 
  61.          *  第二个表示搜索Field的字段, 
  62.          *  第三个表示搜索使用分词器  
  63.          */  
  64.         QueryParser parser = new QueryParser(Version.LUCENE_30, field,new StandardAnalyzer(Version.LUCENE_30));  
  65.           
  66.         //生成Query对象     
  67.         Query query = parser.parse(q);  
  68.   
  69.         TopScoreDocCollector collector = TopScoreDocCollector.create(TOP_NUM,false);  
  70.   
  71.         // start time  
  72.         long start = new Date().getTime();  
  73.   
  74.         indexSearch.search(query,collector);  
  75.         //搜索结果TopScoreDocCollector里面有 TopDocs,TopDocs里面有scoreDocs[]数组,里面保存着索引值.     
  76.         ScoreDoc[] hits = collector.topDocs().scoreDocs;  
  77.           
  78.         System.out.println("找到了"+hits.length+"个");  
  79.           
  80.         //循环ScoreDoc数据,并使用indexSearch.doc方法把Document还原,再拿出对应的字段的值    
  81.         for (int i = 0; i < hits.length; i++) {  
  82.             // new method is.doc()  
  83.             Document doc = indexSearch.doc(hits[i].doc);  
  84.             System.out.println(doc.getField("filename") + "------------"+ hits[i].toString());  
  85.         }  
  86.         indexSearch.close();  
  87.           
  88.         // end time  
  89.         long end = new Date().getTime();  
  90.   
  91.         System.out.println("Found " + collector.getTotalHits()  
  92.                 + " document(s) (in " + (end - start)  
  93.                 + " milliseconds) that matched query '" + q + "':");  
  94.           
  95.     }  
  96. }  


    把代码贴上来了,大家先熟练的使用后再详细研究它的原理。 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值