Lucene代码分析3

最新推荐文章于 2025-02-11 09:04:10 发布

qq_45878116

最新推荐文章于 2025-02-11 09:04:10 发布

阅读量100

点赞数

文章标签： lucene 算法

本文链接：https://blog.youkuaiyun.com/qq_45878116/article/details/120786695

版权

2021SC@SDUSC

我在小组中分配的任务为对Lucene中的Analysis和codecs进行分析

我阅读的DotLucene版本是1.9.RC1

该文章继续对Analysis进行分析

在搜索的过程中，有两个地方会用到分析器，一个就是建索引的时候，我们都知道，Lucene是以倒排的方式建索引的。我们来看下倒排序的概念

倒排序索引

在对文档进行预处理，建立一种便于检索的数据结构，以此来提供信息检索的速度，这种数据结构就是索引。目前广泛使用的一种索引方式是倒排序索引。

倒排序索引的原理就如同查字典。要先查找目录，得到数据对应的页面，在直接翻到指定的页面。不是在文章中找词，而是从目录中找词所在的文章。这需要在索引库中生成一个词汇表（目录），在词汇表中的每一条记录都类似与“词---》所在文档的编号列表”的结构，记录了每一个出现过的单词，和单词出现的地方（哪些文档）。查询时先查询词汇表，得到文档的编号，再直接取出相应的文档。

把数据转化成指定格式放到索引库中的操作叫做建立索引。建立索引时，在把数据存到索引库中，再更新词汇表。

进行搜索时，先从检索词汇表开始，然后找到相对应的文档。如果查询中仅包含一个关键词，在在词汇表中找到该单词，并取出他对应的文档就可以了。如果查询中包含多个关键词，则需要将各个单词检索出的记录进行合并再取出相应的文档记录。

文本分析的过程简单的可以理解为把一系列字符串按某种方式分成一个个的词。

Lucene中，Document就是我们要建索引的文档，比如我有一个文本文件，里面内容是“Beijing is the Capital of China”,我们就把它当成一个Documnet，先把Document传给分词组件（Tokenizer）,分词组件会把这个文档里面的域值Field分成一个个的单词，去掉标点符号，去除停词（一些没有实际意义的词，如the,a等等），这样处理之后，得到的就是词汇单元（Token）了，比如”Beijing”,”Capitial”,”China”等等就是词汇单元了。然后词汇单元又会经过一系列处理，如转换成小写，还会把单词还原成原型，也就是把过去时，复数等等转换成相应的原来的形式，如把cars转换成car。这样得到的就是词（Term）了，最后得到的”beijing”,”capitial”,”china”就是词了，然后把这些词传递给索引组件，建立索引。

先看几个名词

1、分析器

Analysis（分析）是从要索引的文本中提取term（索引项）的过程。Lucene中，分析是由实现Analyzer抽象类的分析器来实现；

Lucene自带有如下分析器：

WhitespaceAnalyzer:仅仅是去除空格，对字符没有lowcase化,不支持中文；

SimpleAnalyzer:功能强于WhitespaceAnalyzer,将除去letter之外的符号全部过滤掉,并且将所有的字符lowcase化,不支持中文；

StopAnalyzer:StopAnalyzer的功能超越了SimpleAnalyzer，在SimpleAnalyzer的基础上增加了去除StopWords的功能,不支持中文；

StandardAnalyzer:英文的处理能力同于StopAnalyzer.支持中文采用的方法为单字切分；

2、Token

Token我们先可以这样理解，就是一个单词，又叫语汇单元。Token是分析后的基本元素

它有四个属性，也就是四个字段，

termText：代表的是文本值，也就是单词本身;

startOffset：就是这个单词起始点的偏移量，也就是语汇单元文本的起始字符在原始文本中的位置;

endOffse：就是这个单词终点的偏移量，终点偏移量是语汇单元文本终止字符的下一个位置;

type：就是指这个语汇单元的类型，这里的类型可以是文本，数字，主机名，缩写等等。大家可以看到这个类型可以是自定义的，在构造函数中传进去，也可以用它内置的，是一个枚举。也就是TokenTypes 枚举，它里面有如下几个枚举成员：

3、TokenStream

TokenStream叫语汇单元流，可能理解为一个字符串，就是若干个Token语汇单元组成的。真正的是从别处传过来一个Document，暂且理解为一个字符串，经过一系列操作后，变成一个个Token，然后把这些Token组合成一个TokenStream。

再接着我们就要看TokenStream的子类了，这里先介绍一下，TokenStream有两种类型的子类

Tokenizer（分词组件）

Tokenizer是真正进行分词的,是Analyzer的第一步

Tokenizer类继承于TokenStream类，它的作用主要是把一个字符串分隔成一个个的词汇单元，不同的子类实现不同的切分方式。有按空格的，有按非英文字符的。把切分出来的词Token组合成TokenStream。

Tokenizer拆分成一个个的语汇单元，并记录每个语汇单元的偏移量，里面最重要的就是一个Next方法，这个方法就是遍历文本流中的每个字符，然后来判断这个字符是不是一个语汇单元的的分拆条件，比如如果我的条件是以空格来分词，那么当这个字符不是空格的话，我就接着遍历下一个字符，一直循环，如果到某一个字符，它恰好是空格，那么就符合我们分词的条件，我们就把前面所遍历的字符当作一个语汇单元，也就是一个词（Token）返回去，顺便也返回它的偏移量，

TokenFilter（过滤器）

就是完成一些其他操作的，比如去除停词，转换成小写。这两个子类也是抽象类，他们也作为父类，后面有很多继承他们的类。

TokenFilter类也是继承于TokenSteam类，它的作用是对分出来的词进行一些处理，比如去掉停词，转换大小写。