初识Lucene-索引与搜索

本文介绍如何使用Lucene-4.2.1版本建立文本文件的索引,并通过索引进行高效搜索。主要涉及两个核心Java类:Indexer和Searcher。Indexer负责创建索引,对指定文件夹下的.txt文件进行索引;Searcher则负责从已建立的索引中搜索特定文本。

Lucene首先要建立索引,才能进行搜索,使用了最新的lucene-4.2.1包

1.Indexer.java

/**
 * 索引器
 * @author shishengjie
 *
 */
public class Indexer {
	
	private IndexWriter writer;//写索引,负责创建索引或打开已有索引等等

	public Indexer(String indexDir) throws IOException {
		//Directory描述索引存放的位置
		Directory dir = FSDirectory.open(new File(indexDir));
		//分析器,文本文件在被索引之前需要经过Analyzer处理
		Analyzer luceneAnalyzer = new StandardAnalyzer(Version.LUCENE_42);
		IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_42,
				luceneAnalyzer);
		writer = new IndexWriter(dir, config);//创建写索引

	}

	public void close() throws IOException {
		writer.close();
	}
	/**
	 * 文件过滤器 过滤所有非.txt文件
	 * @author shishengjie
	 *
	 */
	private static class TextFilesFilter implements FileFilter {

		@Override
		public boolean accept(File pathname) {
			// TODO Auto-generated method stub
			return pathname.getName().toLowerCase().endsWith(".txt");
		}

	}
	/**
	 * 建立索引
	 * @param dataDir
	 * @param filter
	 * @return
	 * @throws IOException
	 */
	public int index(String dataDir, FileFilter filter) throws IOException {
		File files[] = new File(dataDir).listFiles();//索引文件夹下所有文件
		for (File f : files) {
			if (!f.isDirectory() && !f.isHidden() && f.exists() && f.canRead()
					&& (filter == null || filter.accept(f))) {
				indexFile(f);//将文件加入所索引
			}
		}
		return writer.numDocs();
	}

	/**
	 * 向索引中添加文档
	 * @param f
	 * @throws IOException
	 */
	private void indexFile(File f) throws IOException {
		System.out.println("Indexing " + f.getCanonicalPath());
		//根据文件名获取文档,Document代表一些域Filed的集合
		Document doc = getDocument(f);
		//加入到索引中
		writer.addDocument(doc);
	}

	/**
	 * 根据文件返回Document
	 * @param f
	 * @return
	 * @throws IOException
	 */
	private Document getDocument(File f) throws IOException {
		Document doc = new Document();//创建文档
		doc.add(new Field("contents", new FileReader(f)));
		doc.add(new Field("filename", f.getName(), Field.Store.YES,
				Field.Index.NOT_ANALYZED));
		doc.add(new Field("fullpath", f.getCanonicalPath(), Field.Store.YES,
				Field.Index.NOT_ANALYZED));//添加域Filed
		return doc;
	}

	public static void main(String[] args) {
		try {
			if (args.length != 2) {
				throw new IllegalAccessException("Usage:java "
						+ Indexer.class.getName() + " <index dir> <data dir>");
			}

			String indexDir = args[0];	//此处存放索引文件
			String dataDir = args[1];	//对该文件夹下的文件建立索引

			long start = System.currentTimeMillis();
			//创建索引,indexDir为索引存放位置
			Indexer indexer = new Indexer(indexDir);
			int numIndexed;
			try {
				//对dataDir文件夹下的文件建立索引
				numIndexed = indexer.index(dataDir, new TextFilesFilter());
			} finally {
				indexer.close();
			}
			long end = System.currentTimeMillis();
			System.out.println("Indexing " + numIndexed + " files took "
					+ (end - start) + " milliseconds");
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

}

运行时需要输入2个参数,第一个为要存放索引的文件夹,第二个为要索引哪个文件夹下的文件

如:C:\Users\shishengjie\Desktop\lucene\indexDir  C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\

将会扫描C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\文件夹下的txt文件,为其建立索引,创建的索引存放在C:\Users\shishengjie\Desktop\lucene\indexDir下面

输出为:

Indexing C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\CHANGES.txt
Indexing C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\JRE_VERSION_MIGRATION.txt
Indexing C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\LICENSE.txt
Indexing C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\MIGRATE.txt
Indexing C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\NOTICE.txt
Indexing C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\README.txt
Indexing C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\SYSTEM_REQUIREMENTS.txt
Indexing 21 files took 2479 milliseconds


 


2.Searcher.java

/**
 * 查找器
 * @author shishengjie
 *
 */
public class Searcher {

	public static void main(String[] args) throws Exception {

		if (args.length != 2) {
			throw new IllegalAccessException("Usage:java "
					+ Searcher.class.getName() + " <index dir> <data dir>");
		}
		String indexDir = args[0];//索引文件夹
		String q = args[1];//要检索的字符
		search(indexDir, q);//查找
	}

	/**
	 * 查找
	 * @param indexDir
	 * @param q
	 * @throws Exception
	 */
	private static void search(String indexDir, String q) throws Exception {
		//索引存放的位置处创建Directory
		Directory dir = FSDirectory.open(new File(indexDir));
		// 读取索引的indexReader
		IndexReader indexReader = IndexReader.open(dir);
		// 创建indexSearcher,用于搜索由IndexWriter类创建的索引
		IndexSearcher is = new IndexSearcher(indexReader);
		//解析查询字符串
		QueryParser parser = new QueryParser(Version.LUCENE_42, "contents",
				new StandardAnalyzer(Version.LUCENE_42));
		//将人可读的查询解析为Query
		Query query = parser.parse(q);
		long start = System.currentTimeMillis();
		//查询,以TopDocs对象的形式返回搜索结果集
		//TopDocs是一个简单的指针容器,指向前N个排名的搜索结果
		//TopDocs只包括对于文档的引用IndexSearcher.doc时才加载
		TopDocs hits = is.search(query, 10);
		long end = System.currentTimeMillis();
		System.err.println("Found " + hits.totalHits + " document(s) (in "
				+ +(end - start) + " milliseconds) that matched query '" + q
				+ "'");
		//输出匹配的文本
		for (ScoreDoc scoreDoc : hits.scoreDocs) {
			Document doc = is.doc(scoreDoc.doc);//返回匹配文本
			System.out.println(doc.get("fullpath"));
		}

	}

}


运行时需要输入2个参数,第一个为要存放索引的文件夹,第二个为要查询的单词

如:C:\Users\shishengjie\Desktop\lucene\indexDir  patent

将会读取索引,查找patent文件

输出为:

Found 6 document(s) (in 191 milliseconds) that matched query 'java'
C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\JRE_VERSION_MIGRATION.txt
C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\SYSTEM_REQUIREMENTS.txt
C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\README.txt
C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\NOTICE.txt
C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\LICENSE.txt
C:\Users\shishengjie\Desktop\lucene\lucene-4.2.1\CHANGES.txt


 

本课题设计了一种利用Matlab平台开发的植物叶片健康状态识别方案,重点融合了色彩纹理双重特征以实现对叶片病害的自动化判别。该系统构建了直观的图形操作界面,便于用户提交叶片影像并快速获得分析结论。Matlab作为具备高效数值计算数据处理能力的工具,在图像分析模式分类领域应用广泛,本项目正是借助其功能解决农业病害监测的实际问题。 在色彩特征分析方面,叶片影像的颜色分布常其生理状态密切相关。通常,健康的叶片呈现绿色,而出现黄化、褐变等异常色彩往往指示病害或虫害的发生。Matlab提供了一系列图像处理函数,例如可通过色彩空间转换直方图统计来量化颜色属性。通过计算各颜色通道的统计参数(如均值、标准差及主成分等),能够提取具有判别力的色彩特征,从而为不同病害类别的区分提供依据。 纹理特征则用于描述叶片表面的微观结构形态变化,如病斑、皱缩或裂纹等。Matlab中的灰度共生矩阵计算函数可用于提取对比度、均匀性、相关性等纹理指标。此外,局部二值模式Gabor滤波等方法也能从多尺度刻画纹理细节,进一步增强病害识别的鲁棒性。 系统的人机交互界面基于Matlab的图形用户界面开发环境实现。用户可通过该界面上传待检图像,系统将自动执行图像预处理、特征抽取分类判断。采用的分类模型包括支持向量机、决策树等机器学习方法,通过对已标注样本的训练,模型能够依据新图像的特征向量预测其所属的病害类别。 此类课题设计有助于深化对Matlab编程、图像处理技术模式识别原理的理解。通过完整实现从特征提取到分类决策的流程,学生能够将理论知识实际应用相结合,提升解决复杂工程问题的能力。总体而言,该叶片病害检测系统涵盖了图像分析、特征融合、分类算法及界面开发等多个技术环节,为学习掌握基于Matlab的智能检测技术提供了综合性实践案例。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值