ElasticSearch基础入门
小注解:全原创,一个字一个字敲的,全测试过了,可以跑通,猿猴们,欢迎大家点点关注,收藏点赞走起,持续更新原创文档,通俗易懂
1.核心概念
1.1 索引(Index)
- 白话:相当于mysql的数据库
- 一个索引就是一个拥有几分相似特征的文档的集合。比如说,你可以有一个客户数据的索引,另一个产品目录的索引,还有一个订单数据的索引。一个索引由一个名字来标识(必须全部是小写字母),并且当我们要对这个索引中的文档进行索引、搜索、更新和删除的时候,都要使用到这个名字。在一个集群中,可以定义任意多的索引。能搜索的数据必须索引,这样的好处是可以提高查询速度,比如:新华字典前面的目录就是索引的意思,目录可以提高查询速度。
- ElasticSearch索引的精髓:一切设计都是为了提高搜索的性能
1.2 类型(Type)
- 白话:相当于mysql的表,不过es是直接索引对应文档的,这个type没意义,7.0以上后就被弃用了
- 在一个索引中,你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区,其语义完全由你来定。通常,会为具有一组共同字段的文档定义一个类型。不同的版本,类型发生了不同的变化==(类型其实毫无意义)==
1.3 文档(Document)
- 白话:文档就相当于mysql中表中的一行行数据,一条文档=一条数据(由JSON组成的数据)
- 一个文档是一个可被索引的基础信息单元,也就是一条数据,比如:你可以拥有某一个客户的文档,某一个产品的一个文档,当然,也可以拥有某个订单的一个文档。文档以 JSON(Javascript Object Notation)格式来表示,而 JSON 是一个到处存在的互联网数据交互格式。在一个 index/type 里面,你可以存储任意多的文档。
1.4 字段(Field)
- 白话:字段相当于mysql中表的字段(列),比如age年龄字段,name名称字段
- 相当于是数据表的字段,对文档数据根据不同属性进行的分类标识。
1.5 映射(Mapping)
- 白话:定义规格,比如某个字段是否可以被索引等等
- mapping 是处理数据的方式和规则方面做一些限制,如:某个字段的数据类型、默认值、分析器、是否被索引等等。这些都是映射里面可以设置的,其它就是处理 ES 里面数据的一些使用规则设置也叫做映射,按着最优规则处理数据对性能提高很大,因此才需要建立映射,并且需要思考如何建立映射才能对性能更好。
1.6 分片(Shards)
-
白话:类似mysql中的水平分表,一个表存多了搜索起来卡,就分成多个表进行存储,作用:缓解压力,提高吞吐量
-
一个索引可以存储超出单个节点硬件限制的大量数据。比如,一个具有 10 亿文档数据的索引占据 1TB 的磁盘空间,而任一节点都可能没有这样大的磁盘空间。或者单个节点处理搜索请求,响应太慢。为了解决这个问题,Elasticsearch 提供了将索引划分成多份的能力,每一份就称之为分片。当你创建一个索引的时候,你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的“索引”,这个“索引”可以被放置到集群中的任何节点上。
-
分片很重要,主要有两方面的原因:
- 允许你水平分割 / 扩展你的内容容量。
- 允许你在分片之上进行分布式的、并行的操作,进而提高性能/吞吐量。
-
至于一个分片怎样分布,它的文档怎样聚合和搜索请求,是完全由 Elasticsearch 管理的,对于作为用户的你来说,这些都是透明的,无需过分关心。
-
被混淆的概念是,一个Lucene索引 我们在Elasticsearch称作 分片 。 一个Elasticsearch索引 是分片的集合。 当Elasticsearch在索引中搜索的时候, 他发送查询到每一个属于索引的分片(Lucene索引),然后合并每个分片的结果到一个全局的结果集。
1.7 副本(Replicas)
- 白话:副本相当于备份,如果分片挂了,副本顶上,还能进行负载均衡,分片和副本两个切换着来使用,集群环境下,副本是存储在其他集群节点上的,为了保证高可用。
- 在一个网络 / 云的环境里,失败随时都可能发生,在某个分片/节点不知怎么的就处于离线状态,或者由于任何原因消失了,这种情况下,有一个故障转移机制是非常有用并且是强烈推荐的。为此目的,Elasticsearch 允许你创建分片的一份或多份拷贝,这些拷贝叫做复制分片(副本)。
- 复制分片之所以重要,有两个主要原因:
- 在分片/节点失败的情况下,提供了高可用性。因为这个原因,注意到复制分片从不与原/主要(original/primary)分片置于同一节点上是非常重要的。
- 扩展你的搜索量/吞吐量,因为搜索可以在所有的副本上并行运行。
- 总之,每个索引可以被分成多个分片。一个索引也可以被复制 0 次(意思是没有复制)或多次。一旦复制了,每个索引就有了主分片(作为复制源的原来的分片)和复制分片(主分片的拷贝)之别。分片和复制的数量可以在索引创建的时候指定。在索引创建之后,你可以在任何时候动态地改变复制的数量,但是你事后不能改变分片的数量。默认情况下,Elasticsearch 中的每个索引被分片 1 个主分片和 1 个复制,这意味着,如果你的集群中至少有两个节点,你的索引将会有 1 个主分片和另外 1 个复制分片(1 个完全拷贝),这样的话每个索引总共就有 2 个分片,我们需要根据索引需要确定分片个数。
1.8 分配(Allocation)
-
白话:也就是分配规格,集群下如果有3个节点,其中一个是主节点,由主节点来分配分片和副本的规格,参考下面系统架构的图
P:分片
R:副本
-
将分片分配给某个节点的过程,包括分配主分片或者副本。如果是副本,还包含从主分片复制数据的过程。这个过程是由 master 节点完成的。
##2.ElasticSearch索引概念
2.1 正排索引
-
-
根据索引id查询value(根据key查询value)
2.2 倒排索引
-
-
根据值查询id(根据value查询key)
- es会先对value进行拆分(分词),value会对应相对应的id,查询的时候会根据这个value查询所对应的一些id
3.索引操作
3.1 创建索引
-
对比关系型数据库,创建索引就相当于创建数据库
-
向ES服务器发送PUT请求:http://127.0.0.1:9200/索引名(数据库名)
-
文档类型
- text 可被分词
- keyword 不可被分词
-
index 是否索引
- true 可以被索引(默认)
- false 不可被索引(搜索不到)
-
PUT 索引名 { "mappings": { "properties": { "name":{ "type": "text" //text可被分词 , "index": true }, "sex":{ "type": "keyword" //keyword 不可被分词 ,"index": true }, "tel":{ "type": "keyword" ,"index": false //index = false 不可被索引 } } }
3.2 获取索引信息
- 向ES服务器发送GET请求:http://127.0.0.1:9200/索引名(数据库名)
3.3 获取所有索引
- 向ES服务器发送GET请求:http://127.0.0.1:9200/_cat/indices?v
3.4 删除索引
- 向ES服务器发送DELETE请求:http://127.0.0.1:9200/索引名(数据库名)
4.文档操作
4.1 创建文档
- 文档=数据
- 可以PUT也可以POST
- PUT:http://127.0.0.1:9200/索引名/_doc/id
- POST:http://127.0.0.1:9200/索引名/_doc/id(id可选操作,有id则以id为标准,没有id则随机生成)
4.2 查询文档-简单查询(根据ID查询)
- 向ES服务器发送GET请求:http://127.0.0.1:9200/索引名/_doc/id
4.3 修改文档
-
全局修改
- 向ES服务器发送PUT请求:http://127.0.0.1:9200/索引名/_doc/id
- 请求体发送JSON
-
局部修改
-
向ES服务器发送POST请求:http://127.0.0.1:9200/索引名/_doc/id/_update
-
请求体发送JSON,修改内容包含在doc里面
-
{ "doc":{ "price": 15999.00 } }
-
-
4.4 删除文档
- 向ES服务器发送POST请求:http://127.0.0.1:9200/索引名/_doc/id
4.5 条件查询
1. 向ES服务器发送==GET==请求:http://127.0.0.1:9200/索引名/_search/q=key:value
4.6 复杂查询
-
向ES服务器发送GET请求:http://127.0.0.1:9200/索引名/_search
-
参数说明
-
query 条件
-
{ "query": {} }
-
-
match: 匹配
-
{ "query": { "match": { "category": "小米" // key:字段名 value:查询值 } } }
-
-
match_phrase 完全匹配 比如小米 那么一段话中小和米两个字必须挨在一起
-
{ "query": { "match_phrase": { "category": "小米" } } }
-
-
match_all 查询所有(一般分页查询)
-
{ "query": { "match_all": {} } }
-
分页查询
-
from:从第几条开始查询
-
size:查询几条
-
{ "query": { "match_all": {}java }, "from": 0, //从第几条开始查询(偏移量) "size": 2 //每页显示多少条 }
-
-
_source 数据源控制(查出你所需要的字段列)
-
{ "query": { "match_all": {} }, "_source": [ //需要显示的字段名 "title", "price" ] }
-
-
sort 排序
-
{ "query": { "match_all": {} }, "sort": { "price": { //需要排序的字段 "order": "desc" //key:固定的order value可选asc升序 desc降序 } } }
-
-
4.7 must 多条件查询
-
must 相当于mysql中的and
-
should 相当于mysql中的or
-
must_not 与must相反 must是必须全部匹配 must_not是必须全部不匹配
-
filter 过滤
- range 范围查询
- gt 大于
- lt 小于
- gte 大于等于
- lte 小于等于
- range 范围查询
-
{ "query": { "bool": { "must": [ { "match": { "category": "小米" } }, { "match": { "price": 3999 } } ], "filter": { //过滤 "range": { //范围查询 "price": { //字段 "gt": 3000 //gt表示大于 } } } } } }
4.8 highlight 高亮查询显示
-
使用highlight属性来实现结果高亮显示,需要的字段名称添加到fields内即可,elasticsearch会自动帮我们实现高亮。
-
{ "query": { "match_phrase": { "category": "小米" } }, "highlight": { "fields": { "category": {}//高亮字段 } } }
-
-
自定义高亮显示
-
pre_tags 以什么标签开头
-
post_tags 以什么标签结尾
-
{ "query": { "match_phrase": { "category": "小米" } }, "highlight": { "pre_tags": "<span style='color:red'>", "post_tags": "</span>", "fields": { "category": {} } } }
-
4.9 聚合查询
-
terms 分组
-
默认会显示原始数据 不需要原始数据加上size:0
-
{ "aggs": { //聚合操作 "price_group": { //给聚合操作取名字 比如这里是对价格分组 "terms": { //分组 "field": "price" //分组字段 } } }, "size": 0 //可选 不加则显示原始数据 加了则不显示 }
-
-
avg 平均值
-
默认会显示原始数据 不需要原始数据加上size:0
-
{ "aggs": { //聚合操作 "price_group": { //给聚合操作取名字 比如这里是对价格分组 "avg": { //分组 "field": "price" //分组字段 } } }, "size": 0 //可选 不加则显示原始数据 加了则不显示 }
-
5.部署
5.1 概述
单台ElasticSearch服务器提供服务,往往都有最大的负载能力,超过这个阀值,服务器的性能就会大大的降低,甚至不可用,所以生产环境中,一般都是运行在指定服务器集群中。
除了负载能力,单点服务器也存在其他问题
- 单台服务器存储容量有限
- 单服务器容易出现单点故障,无法实现高可用
- 单服务的并发处理能力有限
配置服务器集群时,集群中节点数量没有限制,大于等于2个节点就可以看作是一个集群,一般出于高性能及高可用方面来考虑,集群中节点数量都是大于3个
5.2 Linux部署单机elasticSearch
-
下载elasticSearch 地址:https://www.elastic.co/cn/downloads/past-releases#elasticsearch
-
解压elasticSearch压缩包
-
tar zxvf 文件名
-
-
新建es用户
-
useradd es #新增 es 用户 passwd es #为 es 用户设置密码 userdel -r es #如果错了,可以删除再加 chown -R es:es es目录 #赋予文件夹所有者
-
-
修改elasticSearch目录中config/elasticSearch.yml配置文件
-
cluster.name: elasticsearch #集群名称 node.name: node-1 #节点名称 network.host: 0.0.0.0 http.port: 9200 #端口号 cluster.initial_master_nodes: ["node-1"] #表示把当前机器当作主节点
-
-
修改系统文件vim /etc/security/limits.conf
-
# 在文件末尾中增加下面内容 # 每个进程可以打开的文件数的限制 es soft nofile 65536 es hard nofile 65536
-
-
修改系统文件vim /etc/security/limits.d/20-nproc.conf
-
# 在文件末尾中增加下面内容 # 每个进程可以打开的文件数的限制 es soft nofile 65536 es hard nofile 65536
-
-
修改系统文件vim /etc/sysctl.conf
-
# 在文件中增加下面内容 # 一个进程可以拥有的 VMA(虚拟内存区域)的数量,默认值为 65536 vm.max_map_count=655360
-
-
重新加载
-
sysctl -p
-
-
启动软件
-
使用 ES 用户启动
-
cd es目录 #启动 bin/elasticsearch #后台启动 bin/elasticsearch -d
-
启动时,会动态生成文件,如果文件所属用户不匹配,会发生错误,需要重新进行修改用户和用户组(参考5.2-3)
-
-
关闭防火墙
-
#暂时关闭防火墙 systemctl stop firewalld #永久关闭防火墙 systemctl enable firewalld.service #打开放货抢永久性生效,重启后不会复原 systemctl disable firewalld.service #关闭防火墙,永久性生效,重启后不会复原
-
-
-
5.4 linux部署集群elasticSearch
-
下载elasticSearch 地址:点击此处打开elasticSearch下载地址
-
解压elasticSearch压缩包
-
tar zxvf 文件名
-
-
新建es用户
-
useradd es #新增 es 用户 passwd es #为 es 用户设置密码 userdel -r es #如果错了,可以删除再加 chown -R es:es es目录 #赋予文件夹所有者
-
-
修改elasticSearch目录中config/elasticSearch.yml配置文件
-
cluster.name: elasticsearch #集群名称 node.name: node-1 #节点名称 network.host: 0.0.0.0 http.port: 9200 #端口号 cluster.initial_master_nodes: ["node-1"] #表示把当前机器当作主节点
-
-
修改系统文件vim /etc/security/limits.conf
-
# 在文件末尾中增加下面内容 # 每个进程可以打开的文件数的限制 es soft nofile 65536 es hard nofile 65536
-
-
修改系统文件vim /etc/security/limits.d/20-nproc.conf
-
# 在文件末尾中增加下面内容 # 每个进程可以打开的文件数的限制 es soft nofile 65536 es hard nofile 65536
-
-
修改系统文件vim /etc/sysctl.conf
-
# 在文件中增加下面内容 # 一个进程可以拥有的 VMA(虚拟内存区域)的数量,默认值为 65536 vm.max_map_count=655360
-
-
重新加载
-
sysctl -p
-
-
每台服务器都重复1-8的操作
-
修改config/elasticsearch.yml配置文件
-
每台节点的配置文件都一样,只需要修改两个地方
- 第三行 node.name 保持唯一(随便起名,保持唯一就行)
- 第六行 network.host 保持唯一(当前节点内网ip)
-
第20行cluster.initial_master_nodes: [“node-1”] 中的"node-1"填写主节点的node.name即可
-
解:文件中的linux1 linux2 linux3是配置的/etc/hosts文件,可以用内网ip来代替,比如:
- 192.168.1.11 linux1
- 192.168.1.12 linux2
- 192.168.1.13 linux3
-
#集群名称 cluster.name: cluster-es #节点名称,每个节点的名称不能重复 node.name: node-1 #ip 地址,每个节点的地址不能重复 network.host: linux1 #当前节点是否参与选举主节点资格 node.master: true #当前节点是否存储数据 node.data: true #端口号 http.port: 9200 #内网TCP传输监听端口 transport.tcp.port: 9300 #跨域配置 head插件需要这打开这两个配置 http.cors.allow-origin: "*" http.cors.enabled: true http.max_content_length: 200mb #es7.x 之后新增的配置,初始化一个新的集群时需要此配置来选举 master cluster.initial_master_nodes: ["node-1"] #es7.x 之后新增的配置,节点发现 discovery.seed_hosts: ["linux1:9300","linux2:9300","linux3:9300"] gateway.recover_after_nodes: 2 network.tcp.keep_alive: true network.tcp.no_delay: true transport.tcp.compress: true #集群内同时启动的数据任务个数,默认是 2 个 cluster.routing.allocation.cluster_concurrent_rebalance: 16 #添加或删除节点及负载均衡时并发恢复的线程个数,默认 4 个 cluster.routing.allocation.node_concurrent_recoveries: 16 #初始化数据恢复时,并发恢复线程的个数,默认 4 个 cluster.routing.allocation.node_initial_primaries_recoveries: 16
-