《Elasticsearch技术解析与实战》Chapter 1.1：Elasticsearch入门和倒排索引

最新推荐文章于 2024-09-23 15:09:01 发布

weixin_34406061

最新推荐文章于 2024-09-23 15:09:01 发布

阅读量223

点赞数

CC 4.0 BY-SA版权

文章标签：大数据数据库 json

原文链接：https://juejin.im/post/5caf1e3de51d456e8240dcab

1. 简介

Elasticsearch是一个机遇Lucene构建的开源、分布式、RESTful接口全文搜索引擎。同时，Elasticsearch还是一个分布式文档数据库，能够扩展至数百个服务器存储以处理PB级数据，通常作为复杂搜索场景的首选利器。

Elasticsearch的优点：

横向可扩展性：只需要增加一台服务器，配置完毕即可加入集群。
分片机制提供更好的分布性：同一个索引分成多个分片，类似于HDFS的块机制，分而治之的方式提升处理效率。
高可用：提供复制机制，一个分片可以设置多个副本，在某台服务器宕机情况下，集群依旧可以工作，并在宕机服务器重启后恢复数据。
使用简单：开箱即用，快速搭建搜索服务。

Elasticsearch wiki:https://zh.wikipedia.org/wiki/Elasticsearch

2. 数据库搜索

在数据量少的情况下可以当做搜索服务来使用，然而数据库归根结底是做持久化存储。如果数据量大就需要做搜索服务，底层数据还是关系数据库。我司老系统中有一个订单表，数据量已经高达两亿，客服等后台系统通常带有范围或批量条件等查询，这时数据库基本上就无法响应了，报警根本停不下来。因此，用数据库来实现搜索，性能差，可用性不高。

3. Lucene

Lucene是一个开源的全文搜索引擎工具包，其目的是为开发者提供一个简单工具包，以快速实现全文检索的功能。

Lucene wiki:https://zh.wikipedia.org/wiki/Lucene

4. 倒排索引

倒排索引中的索引对象是文档或者文档集合中的单词等，用来存储这些单词在一个文档或者一组文档中的存储位置，是对文档或者文档集合的一种最常用的索引机制。搜索引擎的关键步骤就是建立倒排索引，下面介绍Lucene是如何建立倒排索引和相应的生成算法。

假设有两篇文章：文章1：Tom lives in Guangzhou, I live in Guangzhou too. 文章2：He once lived in Shanghai.

4.1 取得关键词

Lucene是基于关键词索引和查询的，首先要进行关键词提取：

分词：英文单词由空格分隔，较好处理；中文词语由于是连在一起的，需要进行特殊的分词处理（后面会介绍分词器相关知识）。
过滤无概念词语：英文中“in”“once”“too”等词没有实际意义；中文中“的”“是”等也无实际意义，这些无概念词语可以过滤掉。
统一大小写：“he”和“HE”表示的含义一样，所以单词需要统一大小写。
语义还原：通常用户查询“live”时希望能将“lives”和“lived”也查询出来，所以需要将“lives”和“lived”还原成“live”。
过滤标点符号

经过以上过滤，得到如下结果：文章1关键词：tom live guangzhou i live guangzhou 文章2关键词：he live shanghai

4.2 建立倒排索引

关键词建立完成后，就可以进行倒排索引建立了。过滤后的关系是：“文章号“对”文章中所有关键词“，倒排索引把这个关系倒过来变成：”关键词“对”拥有关键词的所有文章号“。

通常仅知道关键词在哪些文章中出现还不够，还需要知道关键词在文章中出现的次数和位置，通常有两种位置：

字符位置，即记录该词是文章中第几个字符（优点是显示并定位关键词快）。
关键词位置，即记录该词是文章中的第几个关键词（优点是节约索引空间、词组查询快），Lucene中记录的就是这种位置。

以上就是Lucene索引结构中最核心的部分，关键字是按字符顺序排列的（Lucene没有使用B树结构），因此Lucene可以使用二元搜索算法快速定位关键词。

4.3 实现

Lucene将上面三列分别作为词典文件（Term Dictionary）、频率文件（frequencies）、位置文件（positions）保存。其中词典文件不仅保存了每个关键词，还保留了指向频率文件和位置文件的指针，通过指针可以找到该关键字的频率信息和位置信息。

Lucene中使用了field的概念，用于表达信息所在的位置（如标题中、文章中、url中），在建索引中，该field信息也记录在词典文件中，每个关键词都有一个field信息，因为每个关键字一定属于一个或多个field。

4.4 压缩算法

为了减小索引文件的大小，Lucene对索引还是用了压缩技术。首先，对词典文件中的关键词进行压缩，关键词压缩为<前缀长度,后缀>，例如：当前词为”阿拉伯语“，上一个词为”阿拉伯“,那么”阿拉伯语“压缩为<3,语>。其次大量用到的是对数字的压缩，数字只保存与上一个值的差值（这样可以减少数字的长度，进而减少保存该数字需要的字节数）。例如当前文章号是16389（不压缩要用3个字节），上一文章号是16382，压缩后保存7（只用一个字节）。