lucene 索引过程的核心类

本文介绍了Lucene的核心组件,包括IndexWriter、Directory、Analyzer、Document和Field。详细解释了各组件的功能及其在全文检索系统中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


IndexWriter

IndexWriter 是索引过程的核心组件。用于创建一个新的索引并把文档加到已有的索引中去。不能用于读取或搜索索引


**********************************************

Directory

Directory类描述了Lucene索引存放的位置,是个抽象的类

public abstract class Directory
extends Object
implements Closeable

FSDirectory继承Directory,具体实现在文件系统的一个目录下创建索引文件

**********************************************

Analyzer是个抽象类
public abstract class Analyzer
extends Object
implements Closeable

文本在被索引之前,需要经过分析器的处理,即分词处理,应用程序在IndexWriter之前要制定所需要使用的分析器,负责从将被索引的文本文件中提取词汇单元(tokens),并提出剩下的无用信息,例子[quote]http://qzxfl008.iteye.com/admin/blogs/1018962[/quote]
***********************************************

Document

顾名思义文档的意思,一个Document代表多个域(Field)的集合。Document是承载数据的实体,

************************************************

Field


每个Field都对应于一段数据,这些数据在索引过程中可能被查询活着在索引表中被检索

Lucene提供四种不同类型的Field:
[b]Keyword域[/b]——不需要被分析,但会被逐字地被索引并存储。该类适用于原始值,即需要别全部保留的Field,如URL,日期等

[b]UnIndexed 域[/b]——既不需要被分析也不进行索引,但是该值同样被存储在索引文件中。适用于需要和搜索结果一起被现实出来的,但用户不会将它的值直接用于搜索的情形。但不适合存储大文本的索引

[b]UnStored 域[/b]——与UnIndexed刚好相反,

[b]Text 域[/b]——需要被分析切索引。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值