ElasticSearch基础入门

现实理想主义中的猿猴

已于 2022-02-24 18:30:27 修改

阅读量1.1k

点赞数

分类专栏：技术专栏文章标签： elasticsearch big data 大数据

于 2022-02-24 15:27:04 首次发布

本文链接：https://blog.youkuaiyun.com/qq_36280879/article/details/123112702

版权

技术专栏专栏收录该内容

6 篇文章

订阅专栏

ElasticSearch基础入门

小注解：全原创，一个字一个字敲的，全测试过了，可以跑通，猿猴们，欢迎大家点点关注，收藏点赞走起，持续更新原创文档，通俗易懂

1.核心概念

1.1 索引(Index)

白话：相当于mysql的数据库
一个索引就是一个拥有几分相似特征的文档的集合。比如说，你可以有一个客户数据的索引，另一个产品目录的索引，还有一个订单数据的索引。一个索引由一个名字来标识（必须全部是小写字母），并且当我们要对这个索引中的文档进行索引、搜索、更新和删除的时候，都要使用到这个名字。在一个集群中，可以定义任意多的索引。能搜索的数据必须索引，这样的好处是可以提高查询速度，比如：新华字典前面的目录就是索引的意思，目录可以提高查询速度。
ElasticSearch索引的精髓：一切设计都是为了提高搜索的性能

1.2 类型(Type)

白话：相当于mysql的表，不过es是直接索引对应文档的，这个type没意义，7.0以上后就被弃用了
在一个索引中，你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区，其语义完全由你来定。通常，会为具有一组共同字段的文档定义一个类型。不同的版本，类型发生了不同的变化==(类型其实毫无意义)==

1.3 文档(Document)

白话：文档就相当于mysql中表中的一行行数据，一条文档=一条数据(由JSON组成的数据)
一个文档是一个可被索引的基础信息单元，也就是一条数据，比如：你可以拥有某一个客户的文档，某一个产品的一个文档，当然，也可以拥有某个订单的一个文档。文档以 JSON（Javascript Object Notation）格式来表示，而 JSON 是一个到处存在的互联网数据交互格式。在一个 index/type 里面，你可以存储任意多的文档。

1.4 字段(Field)

白话：字段相当于mysql中表的字段(列)，比如age年龄字段，name名称字段
相当于是数据表的字段，对文档数据根据不同属性进行的分类标识。

1.5 映射(Mapping)

白话：定义规格，比如某个字段是否可以被索引等等
mapping 是处理数据的方式和规则方面做一些限制，如：某个字段的数据类型、默认值、分析器、是否被索引等等。这些都是映射里面可以设置的，其它就是处理 ES 里面数据的一些使用规则设置也叫做映射，按着最优规则处理数据对性能提高很大，因此才需要建立映射，并且需要思考如何建立映射才能对性能更好。

1.6 分片(Shards)

白话：类似mysql中的水平分表，一个表存多了搜索起来卡，就分成多个表进行存储，作用：缓解压力，提高吞吐量
一个索引可以存储超出单个节点硬件限制的大量数据。比如，一个具有 10 亿文档数据的索引占据 1TB 的磁盘空间，而任一节点都可能没有这样大的磁盘空间。或者单个节点处理搜索请求，响应太慢。为了解决这个问题，Elasticsearch 提供了将索引划分成多份的能力，每一份就称之为分片。当你创建一个索引的时候，你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的“索引”，这个“索引”可以被放置到集群中的任何节点上。
分片很重要，主要有两方面的原因：
1. 允许你水平分割 / 扩展你的内容容量。
2. 允许你在分片之上进行分布式的、并行的操作，进而提高性能/吞吐量。
至于一个分片怎样分布，它的文档怎样聚合和搜索请求，是完全由 Elasticsearch 管理的，对于作为用户的你来说，这些都是透明的，无需过分关心。
被混淆的概念是，一个Lucene索引我们在Elasticsearch称作分片。一个Elasticsearch索引是分片的集合。当Elasticsearch在索引中搜索的时候，他发送查询到每一个属于索引的分片(Lucene索引)，然后合并每个分片的结果到一个全局的结果集。

1.7 副本(Replicas)

白话：副本相当于备份，如果分片挂了，副本顶上，还能进行负载均衡，分片和副本两个切换着来使用，集群环境下，副本是存储在其他集群节点上的，为了保证高可用。
在一个网络 / 云的环境里，失败随时都可能发生，在某个分片/节点不知怎么的就处于离线状态，或者由于任何原因消失了，这种情况下，有一个故障转移机制是非常有用并且是强烈推荐的。为此目的，Elasticsearch 允许你创建分片的一份或多份拷贝，这些拷贝叫做复制分片(副本)。
复制分片之所以重要，有两个主要原因：
- 在分片/节点失败的情况下，提供了高可用性。因为这个原因，注意到复制分片从不与原/主要（original/primary）分片置于同一节点上是非常重要的。
- 扩展你的搜索量/吞吐量，因为搜索可以在所有的副本上并行运行。
- 总之，每个索引可以被分成多个分片。一个索引也可以被复制 0 次（意思是没有复制）或多次。一旦复制了，每个索引就有了主分片（作为复制源的原来的分片）和复制分片（主分片的拷贝）之别。分片和复制的数量可以在索引创建的时候指定。在索引创建之后，你可以在任何时候动态地改变复制的数量，但是你事后不能改变分片的数量。默认情况下，Elasticsearch 中的每个索引被分片 1 个主分片和 1 个复制，这意味着，如果你的集群中至少有两个节点，你的索引将会有 1 个主分片和另外 1 个复制分片（1 个完全拷贝），这样的话每个索引总共就有 2 个分片，我们需要根据索引需要确定分片个数。

1.8 分配(Allocation)

白话：也就是分配规格，集群下如果有3个节点，其中一个是主节点，由主节点来分配分片和副本的规格，参考下面系统架构的图

P:分片

R:副本
将分片分配给某个节点的过程，包括分配主分片或者副本。如果是副本，还包含从主分片复制数据的过程。这个过程是由 master 节点完成的。

##2.ElasticSearch索引概念

2.1 正排索引

根据索引id查询value(根据key查询value)

2.2 倒排索引

根据值查询id(根据value查询key)
- es会先对value进行拆分(分词)，value会对应相对应的id,查询的时候会根据这个value查询所对应的一些id

3.索引操作

3.1 创建索引

对比关系型数据库，创建索引就相当于创建数据库
向ES服务器发送PUT请求：http://127.0.0.1:9200/索引名(数据库名)
文档类型
- text 可被分词
- keyword 不可被分词
index 是否索引
- true 可以被索引(默认)
- false 不可被索引(搜索不到)

PUT 索引名
{
  "mappings": {
    "properties": {
      "name":{
        "type": "text" //text可被分词
        , "index": true
      },
      "sex":{
        "type": "keyword" //keyword 不可被分词
        ,"index": true
      },
      "tel":{
        "type": "keyword"
        ,"index": false //index = false 不可被索引
      }
    }
  }

3.2 获取索引信息

向ES服务器发送GET请求：http://127.0.0.1:9200/索引名(数据库名)

3.3 获取所有索引

向ES服务器发送GET请求：http://127.0.0.1:9200/_cat/indices?v

3.4 删除索引

向ES服务器发送DELETE请求：http://127.0.0.1:9200/索引名(数据库名)

4.文档操作

4.1 创建文档

文档=数据
可以PUT也可以POST
PUT：http://127.0.0.1:9200/索引名/_doc/id
POST：http://127.0.0.1:9200/索引名/_doc/id（id可选操作，有id则以id为标准，没有id则随机生成）

4.2 查询文档-简单查询(根据ID查询)

向ES服务器发送GET请求：http://127.0.0.1:9200/索引名/_doc/id

4.3 修改文档

全局修改
- 向ES服务器发送PUT请求：http://127.0.0.1:9200/索引名/_doc/id
- 请求体发送JSON
局部修改
- 向ES服务器发送POST请求：http://127.0.0.1:9200/索引名/_doc/id/_update
- 请求体发送JSON，修改内容包含在doc里面
  - ```
   {
       "doc":{
           "price": 15999.00
       }
   }
```

4.4 删除文档

向ES服务器发送POST请求：http://127.0.0.1:9200/索引名/_doc/id

4.5 条件查询

  1. 向ES服务器发送==GET==请求：http://127.0.0.1:9200/索引名/_search/q=key:value

4.6 复杂查询

向ES服务器发送GET请求：http://127.0.0.1:9200/索引名/_search

参数说明

query 条件
- ```
{
    "query": {}
}
```

match: 匹配

{
    "query": {
        "match": {
            "category": "小米" // key：字段名 value：查询值
        }
    }
}

match_phrase 完全匹配比如小米那么一段话中小和米两个字必须挨在一起

{
    "query": {
        "match_phrase": {
            "category": "小米"
        }
    }
}

match_all 查询所有(一般分页查询)

{
    "query": {
        "match_all": {}
    }
}

分页查询
from：从第几条开始查询
size：查询几条

{
    "query": {
        "match_all": {}java
    },
    "from": 0, //从第几条开始查询(偏移量)
    "size": 2 //每页显示多少条
}

_source 数据源控制(查出你所需要的字段列)

{
    "query": {
        "match_all": {}
    },
    "_source": [ //需要显示的字段名
        "title",
        "price"
    ]
}

sort 排序

{
    "query": {
        "match_all": {}
    },
    "sort": {
        "price": { //需要排序的字段
            "order": "desc" //key：固定的order value可选asc升序 desc降序
        }
    }
}

4.7 must 多条件查询

must 相当于mysql中的and
should 相当于mysql中的or
must_not 与must相反 must是必须全部匹配 must_not是必须全部不匹配
filter 过滤
1. range 范围查询
  - gt 大于
  - lt 小于
  - gte 大于等于
  - lte 小于等于

{
    "query": {
        "bool": {
            "must": [
                {
                    "match": {
                        "category": "小米"
                    }
                },
                {
                    "match": {
                        "price": 3999
                    }
                }
            ],
            "filter": { //过滤
                "range": { //范围查询
                    "price": { //字段
                        "gt": 3000 //gt表示大于
                    }
                }
            }
        }
    }
}

4.8 highlight 高亮查询显示

使用highlight属性来实现结果高亮显示，需要的字段名称添加到fields内即可，elasticsearch会自动帮我们实现高亮。

{
    "query": {
        "match_phrase": {
            "category": "小米"
        }
    },
    "highlight": {
        "fields": {
            "category": {}//高亮字段
        }
    }
}

自定义高亮显示

pre_tags 以什么标签开头
post_tags 以什么标签结尾

{
    "query": {
        "match_phrase": {
            "category": "小米"
        }
    },
    "highlight": {
        "pre_tags": "<span style='color:red'>",
        "post_tags": "</span>",
        "fields": {
            "category": {}
        }
    }
}

4.9 聚合查询

terms 分组

默认会显示原始数据不需要原始数据加上size:0

{
    "aggs": { //聚合操作
        "price_group": { //给聚合操作取名字 比如这里是对价格分组
            "terms": { //分组
                "field": "price" //分组字段
            }
        }
    },
    "size": 0 //可选 不加则显示原始数据 加了则不显示
}

avg 平均值

默认会显示原始数据不需要原始数据加上size:0

{
    "aggs": { //聚合操作
        "price_group": { //给聚合操作取名字 比如这里是对价格分组
            "avg": { //分组
                "field": "price" //分组字段
            }
        }
    },
    "size": 0 //可选 不加则显示原始数据 加了则不显示
}

5.部署

5.1 概述

单台ElasticSearch服务器提供服务，往往都有最大的负载能力，超过这个阀值，服务器的性能就会大大的降低，甚至不可用，所以生产环境中，一般都是运行在指定服务器集群中。

除了负载能力，单点服务器也存在其他问题

单台服务器存储容量有限
单服务器容易出现单点故障，无法实现高可用
单服务的并发处理能力有限

配置服务器集群时，集群中节点数量没有限制，大于等于2个节点就可以看作是一个集群，一般出于高性能及高可用方面来考虑，集群中节点数量都是大于3个

5.2 Linux部署单机elasticSearch

下载elasticSearch 地址：https://www.elastic.co/cn/downloads/past-releases#elasticsearch
解压elasticSearch压缩包
- ```
tar zxvf 文件名
```

新建es用户

useradd es #新增 es 用户
passwd es #为 es 用户设置密码
userdel -r es #如果错了，可以删除再加
chown -R es:es es目录 #赋予文件夹所有者

修改elasticSearch目录中config/elasticSearch.yml配置文件

cluster.name: elasticsearch #集群名称
node.name: node-1 #节点名称
network.host: 0.0.0.0
http.port: 9200 #端口号
cluster.initial_master_nodes: ["node-1"] #表示把当前机器当作主节点

修改系统文件vim /etc/security/limits.conf

# 在文件末尾中增加下面内容
# 每个进程可以打开的文件数的限制
es soft nofile 65536
es hard nofile 65536

修改系统文件vim /etc/security/limits.d/20-nproc.conf

# 在文件末尾中增加下面内容
# 每个进程可以打开的文件数的限制
es soft nofile 65536
es hard nofile 65536

修改系统文件vim /etc/sysctl.conf

# 在文件中增加下面内容
# 一个进程可以拥有的 VMA(虚拟内存区域)的数量,默认值为 65536
vm.max_map_count=655360

重新加载
- ```
sysctl -p
```

启动软件

使用 ES 用户启动

cd es目录
#启动
bin/elasticsearch
#后台启动
bin/elasticsearch -d

启动时，会动态生成文件，如果文件所属用户不匹配，会发生错误，需要重新进行修改用户和用户组(参考5.2-3)

关闭防火墙

#暂时关闭防火墙

systemctl stop firewalld

#永久关闭防火墙

systemctl enable firewalld.service #打开放货抢永久性生效，重启后不会复原

systemctl disable firewalld.service #关闭防火墙，永久性生效，重启后不会复原

5.4 linux部署集群elasticSearch

下载elasticSearch 地址：点击此处打开elasticSearch下载地址
解压elasticSearch压缩包
- ```
tar zxvf 文件名
```

新建es用户

useradd es #新增 es 用户
passwd es #为 es 用户设置密码
userdel -r es #如果错了，可以删除再加
chown -R es:es es目录 #赋予文件夹所有者

修改elasticSearch目录中config/elasticSearch.yml配置文件

cluster.name: elasticsearch #集群名称
node.name: node-1 #节点名称
network.host: 0.0.0.0
http.port: 9200 #端口号
cluster.initial_master_nodes: ["node-1"] #表示把当前机器当作主节点

修改系统文件vim /etc/security/limits.conf

# 在文件末尾中增加下面内容
# 每个进程可以打开的文件数的限制
es soft nofile 65536
es hard nofile 65536

修改系统文件vim /etc/security/limits.d/20-nproc.conf

# 在文件末尾中增加下面内容
# 每个进程可以打开的文件数的限制
es soft nofile 65536
es hard nofile 65536

修改系统文件vim /etc/sysctl.conf

# 在文件中增加下面内容
# 一个进程可以拥有的 VMA(虚拟内存区域)的数量,默认值为 65536
vm.max_map_count=655360

重新加载
- ```
sysctl -p
```
每台服务器都重复1-8的操作

修改config/elasticsearch.yml配置文件

每台节点的配置文件都一样，只需要修改两个地方
1. 第三行 node.name 保持唯一(随便起名，保持唯一就行)
2. 第六行 network.host 保持唯一(当前节点内网ip)
第20行cluster.initial_master_nodes: [“node-1”] 中的"node-1"填写主节点的node.name即可
解：文件中的linux1 linux2 linux3是配置的/etc/hosts文件，可以用内网ip来代替，比如：
1. 192.168.1.11 linux1
2. 192.168.1.12 linux2
3. 192.168.1.13 linux3

#集群名称
cluster.name: cluster-es
#节点名称，每个节点的名称不能重复
node.name: node-1
#ip 地址，每个节点的地址不能重复
network.host: linux1
#当前节点是否参与选举主节点资格
node.master: true
#当前节点是否存储数据
node.data: true
#端口号
http.port: 9200
#内网TCP传输监听端口
transport.tcp.port: 9300
#跨域配置 head插件需要这打开这两个配置 
http.cors.allow-origin: "*"
http.cors.enabled: true
http.max_content_length: 200mb
#es7.x 之后新增的配置，初始化一个新的集群时需要此配置来选举 master
cluster.initial_master_nodes: ["node-1"]
#es7.x 之后新增的配置，节点发现
discovery.seed_hosts: ["linux1:9300","linux2:9300","linux3:9300"]
gateway.recover_after_nodes: 2
network.tcp.keep_alive: true
network.tcp.no_delay: true
transport.tcp.compress: true
#集群内同时启动的数据任务个数，默认是 2 个
cluster.routing.allocation.cluster_concurrent_rebalance: 16
#添加或删除节点及负载均衡时并发恢复的线程个数，默认 4 个
cluster.routing.allocation.node_concurrent_recoveries: 16
#初始化数据恢复时，并发恢复线程的个数，默认 4 个
cluster.routing.allocation.node_initial_primaries_recoveries: 16