LUCENE Filed详解

本文详细介绍了Lucene中Field的各种类型及其使用场景,包括Text、Keyword、UnIndexed和UnStored等,解析了它们在切词、索引及存储方面的特性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

/*以前一直不了解boost为何?其实boost就是由于后来进行相关度排序时用的,由于在query时,
  *每个term都分属与一个field。同样的term当其属于不同的field时,其重要性不一样,譬如
  *field:<title>中的term就要比field:<content>中的term重要!而这个重要性如何体现就
  *可以通过boost进行设定。可以把field:<title>boost至设大一些
*注意boostDocument中还有整个的设定.
  */
  private float   boost = 1.0f;
  public void setBoost(float boost) {this.boost = boost;}
  public float getBoost() { return boost;}
  public static final Field Keyword(String name, String value) {return new Field(name, value, true, true, false);}
  public static final Field UnIndexed(String name, String value) {return new Field(name, value, true, false, false);}
  public static final Field Text(String name, String value) {return Text(name, value, false);}
  public static final Field Keyword(String name, Date value) {return new Field(name, DateField.dateToString(value), true, true, false);}
  public static final Field Text(String name, String value, boolean storeTermVector) {
    return new Field(name, value, true, true, true, storeTermVector);}
  public static final Field UnStored(String name, String value) {
    return UnStored(name, value, false);}




  public static final Field UnStored(String name, String value, boolean storeTermVector) {
    return new Field(name, value, false, true, true, storeTermVector); }




  public static final Field Text(String name, Reader value) {
    return Text(name, value, false);}
  public static final Field Text(String name, Reader value, boolean storeTermVector) {
    Field f = new Field(name, value);
    f.storeTermVector = storeTermVector;
    return f;
  }
  public String name()         { return name; }
  public String stringValue()         { return stringValue; }
  public Reader readerValue()       { return readerValue; }
  public Field(String name, String string,
                                     boolean store, boolean index, boolean token) {
    this(name, string, store, index, token, false);
  }
//最低层的构造函数
  public Field(String name, String string,
                                     boolean store, boolean index, boolean token, boolean storeTermVector)




  Field(String name, Reader reader)
  public final boolean    isStored()      { return isStored; }
  public final boolean    isIndexed()    { return isIndexed; }
  public final boolean    isTokenized()        { return isTokenized; }
  public final boolean isTermVectorStored() { return storeTermVector; }
  public final String toString()
  public final String toString2()//我加的用来返回六元组
}Field
的六元组形式为<name,stringValue,isStored,isIndexed,isTokenized,isTermVectorStored>,Field提供了不同的构造函数
主要有一下几个
方法



切词



索引



存储



用途



Field.Text(String name, String value)



Yes



Yes



Yes



切分,索引,并存储,比如:titlesubject



Field Text(String name, Reader value)



Yes



Yes



Yes



与上面同, Term Vector并不存储此Field



Field Text(String name, String value, boolean storeTermVector)



Yes



Yes



Yes



切分,索引,存储,比如:title,subject.于上面不同的加入了一个控制变量



Field Text(String name, Reader value, boolean storeTermVector)



Yes



Yes



Yes



切分,索引,存储,比如:title,subject.于上面不同的加入了一个控制变量



Field.Keyword(String name, String value)



No



Yes



Yes



不切分,索引,存储,比如:date,url



Field Keyword(String name, Date value)















不切分,存储,索引,用来返回hits



Field.UnIndexed(String name, String value)



No



No



Yes



不切分,不索引,存储,比如:文件路径



Field.UnStored(String name, String value)



Yes



Yes



No



只全文索引,不存储



Field UnStored(String name, String value, boolean storeTermVector)



Yes



Yes



No



于上面相同,不同的是加入了一个控制变量



总的来看,Field的构造函数就只有四种形式,Text,KeyWord,UnIndexed,UnStored,只不过每种函数往往有多种变形罢了. 
<think>嗯,用户想了解Lucene的架构设计和工作原理。首先,我需要回忆一下之前提供的引用内容。引用[1]提到FSA(有限状态自动机)在Lucene中的应用,比如替代术语字典,支持模糊匹配和快速补全。引用[2]提到了分片的概念,虽然主要是关于Elasticsearch的,但Lucene作为底层索引库,分片可能和索引结构有关。引用[3]和[4]可能不太相关,但引用[5]关于爬虫性能影响可能与索引效率有关。 用户的问题比较广泛,需要系统性地组织信息。Lucene的核心是倒排索引,但架构设计还包括索引段、文档和字段结构、分析器、存储机制等。可能需要分模块讲解,比如索引过程、存储结构、查询处理等。 首先,应该解释Lucene的整体架构,比如索引和搜索的流程。然后深入倒排索引的结构,包括术语字典、倒排列表。接着讨论索引段(Segment)的概念,为什么需要分段,段合并的策略。存储部分,包括正向信息和DocValues。分析器的作用,比如分词和过滤。查询处理中的查询解析、评分机制(TF-IDF或BM25)。性能优化方面,FSA的应用,缓存机制如FilterCache,以及近实时搜索。 需要引用相关部分,比如FSA在术语字典中的应用[^1],分片可能对应到索引的分段策略。另外,引用[5]提到的性能问题可能与索引优化相关,比如段合并策略如何影响性能。 还需要考虑用户可能的后续问题,比如如何优化索引速度、如何处理高并发查询、Lucene和Elasticsearch的关系等。在回答时结构要清晰,分点说明,使用中文,并正确应用LaTeX格式,比如倒排索引的数学表达式用$...$,独立公式用$$...$$。</think>### Lucene架构设计详解 ### 一、核心架构模块 Lucene的核心设计围绕**倒排索引**和**分段存储**展开,主要模块包括: 1. **索引结构**:采用倒排索引(Inverted Index)实现快速检索,数学表达式为$D \rightarrow \{t_1: [d_1, d_2], t_2: [d_3]\}$,其中$D$是文档集合,$t$是词项 2. **分段机制(Segments)**:索引被划分为不可变的段文件,新增文档生成新段,后台合并段时采用**分层合并策略**$$MergePolicy = \frac{SegmentSize}{MaxMergeSize}$$[^1] ### 二、关键组件解析 #### 1. 倒排索引结构 | 组件 | 功能 | 技术实现 | |------|------|----------| | 术语字典 | 存储所有唯一词项 | 有限状态自动机(FSA)[^1] | | 倒排列表 | 记录词项出现文档及位置 | Skip List + Delta编码 | | DocValues | 列式存储用于聚合/排序 | 压缩位图 + 内存映射 | #### 2. 存储层级 ```plaintext 索引目录 ├── _0.cfs (复合文件段) ├── _1.cfe (段元数据) ├── segments.gen (段生成记录) └── segments_N (提交点) ``` ### 三、工作流程 1. **索引阶段**: - 分词器处理:`Analyzer → Tokenizer → TokenFilter` - 索引构建:生成倒排索引 + 正向文件 + DocValues - 段提交:通过`IndexWriter.commit()`原子操作 2. **查询阶段**: ```python def search(query): searcher = IndexSearcher(reader) query_parser.parse("field:text") # 查询解析 weight = query.create_weight(searcher) # 权重计算 scorer = weight.scorer(leaf_ctx) # 评分器 return collector.get_results() # 结果收集 ``` ### 四、性能优化设计 1. **内存管理**: - 使用`DirectByteBuffer`减少JVM堆内存开销 - FSA实现术语字典全内存加载[^1] 2. **缓存策略**: - FilterCache缓存常用过滤结果 - FieldCache预加载高频字段 3. **并发控制**: - 读写分离:`IndexWriter`与`IndexReader`独立 - 近实时搜索(NRT):通过`DirectoryReader.openIfChanged()`实现秒级可见
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值