chapter04_Lucene的分析过程

本文详细介绍了Lucene的分析过程,包括将域文本转换为项Term,分析器的使用如StopAnalyzer、WhitespaceAnalyzer等,以及分析在建立索引和搜索过程中的作用。分析器Analyzer是一个抽象类,TokenStream用于处理语汇单元,而分析结果影响搜索结果的高亮显示和跨度查询。分析过程中过滤顺序至关重要,不同的过滤顺序会影响最终的分析结果。
  1. 分析

    1. 将域Field文本 转换为 项Term

       Term = fieldName + fieldValues[]
      

      而 fieldValues 包含的是语汇单元token

      分析

        "The quick brown fox jumped over the lazy dog"
      

      使用 StopAnalyzer 分析出的语汇单元

       [quick] [brown] [fox] [jumped] [over] [lazy] [dog]
      
    2. 内置了四种基本的分析器,但是自定义分析器也很容易,并且有的时候很必要 P107

      WhitespaceAnalyzer

      SimpleAnalyzer

      StopAnalyzer

      StandardAnaylyzer

    3. 分析过程出现在了2个地方

      (1) 建立索引

      把域文本——>语汇单元(项)

      注:只有由分析器产生的语汇单元才能被检索,或者是整体作为NOT_ANALYZED或者NOT_ANALYZED_NO_NORMS传入

      分析器的分析结果对用户不可见,直接放在索引文件中

      (2) 使用QueryParser进行搜索

      把用户输入——>各个项

      注:分析器只会接收独立的文本片段,不会接收整个表达式,例如用户输入

       "president obama" +harvard +professor
      

      时,会调用分析器3次

      (3) 建立索引过程和进行搜索过程使用的分析器未必相同,要根据情况选择

    4. 分析只能在一个域中,把文本拆成语汇单元,不能把一个文本(例如html)拆成多个域;

      把文本拆成多个域的操作叫解析,这是分析的前一个步骤

  • 分析器Analyzer

    1. 是一个抽象类

       public abstract class Analyzer implements Closeable {
      
           public abstract TokenStream tokenStream(String fieldName, Reader reader);
      
           ...
       }
      

      TokenStream 类用于递归处理所有的语汇单元

      例如 SimpleAnalyzer 长这样

       public final class SimpleAnalyzer extends Analyzer {
      
           @Override
           public TokenStream tokenStream(String fieldName, Reader reader) {
               return new LowerCaseTokenizer(reader);
           }
      
           ...
       }
      
    2. 语汇单元的组成

      一个语汇单元携带了一个文本值(单词本身)+其他一些元数据

      (1) 偏移量

      起点偏移量:语汇单元文本的起始字符在原始文本中的位置

      终点偏移量:语汇单元文本的终止字符的下一个位置

      作用:搜索结果高亮显示

      (2) 位置增量

      相对于前一个语汇单元的位置信息,一般位置增量默认值是1

       位置增量  the ---1---> quick ---1---> brown ---1--->fox
      
       偏移量    0 <------> 3 4 <--------> 9 10 <-----> 15 16<---->19
      

      作用:跨度查询

    3. TokenStream

      作用:一个能在被调用后产生语汇单元序列的类

      分析器链:

       Reader --> Tokenizer ---> TokenFilter1 ---> TokenFilter2 ---> TokenFilter3 ---> Tokens
      
    4. 过滤顺序非常关键

      StopAnalyzer1

       public class StopAnalyzer1 extends Analyzer {
      
           private Set stopWords = Arrays.asList("a", "an", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is", "it", "no", "not", "of", "on", "or", "such", "that", "the", "their", "then", "there", "these", "they", "this", "to", "was", "will", "with");
      
           @Override
           public TokenStream tokenStream(String fieldName, Reader reader) {
      
               return new StopFilter(true,
                          new LowerCaseFilter(
                              new LetterTokenizer(reader)), stopWords);
           }
       }
      

      过滤顺序

       LetterTokenizer ---> LowerCaseFilter ---> StopFilter
      

      StopAnalyzer2

       public class StopAnalyzer2 extends Analyzer {
      
           private Set stopWords = Arrays.asList("a", "an", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is", "it", "no", "not", "of", "on", "or", "such", "that", "the", "their", "then", "there", "these", "they", "this", "to", "was", "will", "with");
      
           @Override
           public TokenStream tokenStream(String fieldName, Reader reader) {
      
               return new LowerCaseFilter(true,
                          new StopFilter(
                              new LetterTokenizer(reader)), stopWords);
           }
       }
      

      过滤顺序

       LetterTokenizer ---> StopFilter ---> LowerCaseFilter
      

      对于

       "The quick brown..."
      

      的分析结果,StopAnalyzer1 会输出

       [quick] [brown]
      

      StopAnalyzer2 会输出

       [the] [quick] [brown]
      

      因为 StopAnalyzer2 先用 StopFilter 后用 LowerCaseFilter,StopFilter的输入中包含 The,而 The 不在 stopWords 的集合里面,所以不会被滤除

【完美复现】面向配电网韧性提升的移动储能预布局与动态调度策略【IEEE33节点】(Matlab代码实现)内容概要:本文介绍了基于IEEE33节点的配电网韧性提升方法,重点研究了移动储能系统的预布局与动态调度策略。通过Matlab代码实现,提出了一种结合预配置和动态调度的两阶段优化模型,旨在应对电网故障或极端事件时快速恢复供电能力。文中采用了多种智能优化算法(如PSO、MPSO、TACPSO、SOA、GA等)进行对比分析,验证所提策略的有效性和优越性。研究不仅关注移动储能单元的初始部署位置,还深入探讨其在故障发生后的动态路径规划与电力支援过程,从而全面提升配电网的韧性水平。; 适合人群:具备电力系统基础知识和Matlab编程能力的研究生、科研人员及从事智能电网、能源系统优化等相关领域的工程技术人员。; 使用场景及目标:①用于科研复现,特别是IEEE顶刊或SCI一区论文中关于配电网韧性、应急电源调度的研究;②支撑电力系统在灾害或故障条件下的恢复力优化设计,提升实际电网应对突发事件的能力;③为移动储能系统在智能配电网中的应用提供理论依据和技术支持。; 阅读建议:建议读者结合提供的Matlab代码逐模块分析,重点关注目标函数建模、约束条件设置以及智能算法的实现细节。同时推荐参考文中提及的MPS预配置与动态调度上下两部分,系统掌握完整的技术路线,并可通过替换不同算法或测试系统进一步拓展研究。
先看效果: https://pan.quark.cn/s/3756295eddc9 在C#软件开发过程中,DateTimePicker组件被视为一种常见且关键的构成部分,它为用户提供了图形化的途径来选取日期与时间。 此类控件多应用于需要用户输入日期或时间数据的场景,例如日程管理、订单管理或时间记录等情境。 针对这一主题,我们将细致研究DateTimePicker的操作方法、具备的功能以及相关的C#编程理念。 DateTimePicker控件是由.NET Framework所支持的一种界面组件,适用于在Windows Forms应用程序中部署。 在构建阶段,程序员能够通过调整属性来设定其视觉形态及运作模式,诸如设定日期的显示格式、是否展现时间选项、预设的初始值等。 在执行阶段,用户能够通过点击日历图标的下拉列表来选定日期,或是在文本区域直接键入日期信息,随后按下Tab键或回车键以确认所选定的内容。 在C#语言中,DateTime结构是处理日期与时间数据的核心,而DateTimePicker控件的值则表现为DateTime类型的实例。 用户能够借助`Value`属性来读取或设定用户所选择的日期与时间。 例如,以下代码片段展示了如何为DateTimePicker设定初始的日期值:```csharpDateTimePicker dateTimePicker = new DateTimePicker();dateTimePicker.Value = DateTime.Now;```再者,DateTimePicker控件还内置了事件响应机制,比如`ValueChanged`事件,当用户修改日期或时间时会自动激活。 开发者可以注册该事件以执行特定的功能,例如进行输入验证或更新关联的数据:``...
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值