Elasticsearch基础_1.基本介绍-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_43563660/article/details/142442107

一、Elasticsearch介绍

elasticsearch是一款非常强大的开源搜索引擎，具备非常多强大功能，可以帮助我们从海量数据中快速找到需要的内容。

elasticsearch结合kibana、Logstash、Beats，也就是elastic stack（ELK）。被广泛应用在日志数据分析、实时监控等领域。

倒排索引的概念是基于MySQL这样的正向索引而言的。

那么什么是正向索引呢？例如给下表（tb_goods）中的id创建索引：
在这里插入图片描述
如果是根据id查询，那么直接走索引，查询速度非常快。

但如果是基于title做模糊查询，只能是逐行扫描数据，流程如下：

逐行扫描，也就是全表扫描，随着数据量增加，其查询效率也会越来越低。当数据量达到数百万时，就是一场灾难。

倒排索引中有两个非常重要的概念：

文档（Document）：用来搜索的数据，其中的每一条数据就是一个文档。例如一个网页、一个商品信息。
词条（Term）：对文档数据或用户搜索数据，利用某种算法分词，得到的具备含义的词语就是词条。例如：我是中国人，就可以分为：我、是、中国人、中国、国人这样的几个词条。

创建倒排索引是对正向索引的一种特殊处理，流程如下：

如图：
在这里插入图片描述
倒排索引的搜索流程如下（以搜索"华为手机"为例）：

如图：
在这里插入图片描述
虽然要先查询倒排索引，再查询正向索引，但是无论是词条、还是文档id都建立了索引，查询速度非常快！无需全表扫描。

那么为什么一个叫做正向索引，一个叫做倒排索引呢？

是不是恰好反过来了？

elasticsearch是面向文档（Document）存储的，可以是数据库中的一条商品数据，一个订单信息。文档数据会被序列化为json格式后存储在elasticsearch中：
在这里插入图片描述
而Json文档中往往包含很多的字段（Field），类似于数据库中的列。

在这里插入图片描述

两者各有自己的擅长之处：

因此在企业中，往往是两者结合使用：

分词器的作用是什么？

es中的分词器对中文的分词效果不够好，因此可以使用IK分词器，IK分词器有两种模式：

如果我们希望添加一些网络热词（分词器里没有的），或者不希望某些词被分出来（比如某些禁忌词汇），可以对分词器做拓展：