02、ElasticStack系列，第二章：增删改查与分词

本文链接：https://blog.youkuaiyun.com/pilot_speed/article/details/145592899

ElasticStack系列，第二章：增删改查与分词

一、ElasticSearch核心内容详解

1、文档

{
    _index: "haoke"
    _type: "user"
    _id: "FD_2gm4BoifuYiH46rUl"
    _version: 1
    found: true
    _source: {
        id: 1002
        name: "李四"
        age: 21
        sex: "男"
    }-
}

元数据：

1、_index	文档存储的地方：
类似于关系型数据库里的“数据库”，它是我们存储和索引关联数据的地方。


2、_type	文档代表的对象的类
在关系型数据库中，我们经常将相同类的对象存储在一个表里，因为它们有着相同的结构。
同理，在Elasticsearch中，我们使用相同类型(type)的文档表示相同的“事物”，
因为他们的数据结构也是相同的。


3、_id		文档的唯一标识
id仅仅是一个字符串，它与 _index 和 _type 组合时，就可以在Elasticsearch中
唯一标识一个文档。当创建一个文档，你可以自定义 _id ，也可以让Elasticsearch
帮你自动生成（32位长度）。

2、查询响应

①、平常查询的时候，相应没有格式化，是这样的：

GET  http://IP:9200/haoke/user/FT_Hh24BoifuYiH4yLVZ

{"_index":"haoke","_type":"user","_id":"FT_Hh24BoifuYiH4yLVZ","_version":1,"found":true,"_source":{ "id":1002,"name":"李四","age":21, "sex":"女"}}

想要结果格式化在之后加一个？pretty即可：

GET http://IP:9200/haoke/user/FT_Hh24BoifuYiH4yLVZ?pretty

{
  "_index" : "haoke",
  "_type" : "user",
  "_id" : "FT_Hh24BoifuYiH4yLVZ",
  "_version" : 1,
  "found" : true,
  "_source" : {
    "id" : 1002,
    "name" : "李四",
    "age" : 21,
    "sex" : "女"
  }
}

②、查询只返回数据，不要元数据

请求：

GET http://IP:9200/haoke/user/FT_Hh24BoifuYiH4yLVZ/_source	##斜线

结果：

{ 
    "id":1002, 
    "name":"李四", 
    "age":21, 
    "sex":"女"
}

③、查询只返回指定的字段

请求：

GET http://IP:9200/haoke/user/FT_Hh24BoifuYiH4yLVZ?_source=id,name ##问号

结果：

{
    "_index":"haoke",
    "_type":"user",
    "_id":"FT_Hh24BoifuYiH4yLVZ",
    "_version":1,
    "found":true,
    "_source":{
        "name":"李四",
        "id":1002
    }
}

④、既不返回元数据，也只返回指定字段

请求：

GET http://IP:9200/haoke/user/FT_Hh24BoifuYiH4yLVZ/_source?_source=id,name ##斜线+问号

结果：

{
    "name":"李四",
    "id":1002
}

⑤、判断文档是否存在

请求：

HEAD http://IP:9200/haoke/user/FT_Hh24BoifuYiH4yLVZ

结果：

存在：
	Status: 200 OK    Time: 53ms
不存在：
	Status: 404 NOT Found    Time: 210ms

3、批量操作

①、_mget 查询

A、同一个_index 同一个 _type下

请求：

POST  http://IP:9200/haoke/user/_mget

请求body:
{ 
	"ids" : [ "FT_Hh24BoifuYiH4yLVZ", "Fj_Ih24BoifuYiH4mrUZ" ]
}

结果：

{
    "docs": [
        {
            "_index": "haoke",
            "_type": "user",
            "_id": "FT_Hh24BoifuYiH4yLVZ",
            "_version": 1,
            "found": true,
            "_source": {
                "id": 1002,
                "name": "李四",
                "age": 21,
                "sex": "女"
            }
        },
        {
            "_index": "haoke",
            "_type": "user",
            "_id": "Fj_Ih24BoifuYiH4mrUZ",
            "_version": 1,
            "found": true,
            "_source": {
                "id": 1001,
                "name": "张三",
                "age": 20,
                "sex": "男"
            }
        }
    ]
}

B、同一个_index 不同 _type下

请求：

POST http://IP:9200/haoke/_mget

请求body:
{
	"docs":[
		{
			"_type":"user",##类型1
			"_id":"FT_Hh24BoifuYiH4yLVZ"
		},
		{
			"_type":"user",##类型2
			"_id":"Fj_Ih24BoifuYiH4mrUZ"
		},
	]
}

结果：

{
    "docs": [
        {
            "_index": "haoke",
            "_type": "user",
            "_id": "FT_Hh24BoifuYiH4yLVZ",
            "_version": 1,
            "found": true,
            "_source": {
                "id": 1002,
                "name": "李四",
                "age": 21,
                "sex": "女"
            }
        },
        {
            "_index": "haoke",
            "_type": "user",
            "_id": "Fj_Ih24BoifuYiH4mrUZ",
            "_version": 1,
            "found": true,
            "_source": {
                "id": 1001,
                "name": "张三",
                "age": 20,
                "sex": "男"
            }
        }
    ]
}

C、不同_index 和不同 _type下

请求：

POST http://IP:9200/_mget

请求body：
{
	"docs":[
		{
			"_index":"haoke",##索引1
			"_type":"user",##类型1
			"_id":"FT_Hh24BoifuYiH4yLVZ"
		},
		{
			"_index":"haoke",##索引2
			"_type":"user",##类型2
			"_id":"Fj_Ih24BoifuYiH4mrUZ"
		}
	]
}

结果：

{
    "docs": [
        {
            "_index": "haoke",
            "_type": "user",
            "_id": "FT_Hh24BoifuYiH4yLVZ",
            "_version": 1,
            "found": true,
            "_source": {
                "id": 1002,
                "name": "李四",
                "age": 21,
                "sex": "女"
            }
        },
        {
            "_index": "haoke",
            "_type": "user",
            "_id": "Fj_Ih24BoifuYiH4mrUZ",
            "_version": 1,
            "found": true,
            "_source": {
                "id": 1001,
                "name": "张三",
                "age": 20,
                "sex": "男"
            }
        }
    ]
}

D、可以具体的字段

请求：

POST http://IP:9200/_mget

请求body：
{
	"docs":[
		{
			"_index":"haoke",
			"_type":"user",
			"_id":"FT_Hh24BoifuYiH4yLVZ",
			"_source":"name"
		},
		{
			"_index":"haoke",
			"_type":"user",
			"_id":"Fj_Ih24BoifuYiH4mrUZ",
			"_source":["name","age"]
		}
	]
}

结果：

{
    "docs": [
        {
            "_index": "haoke",
            "_type": "user",
            "_id": "FT_Hh24BoifuYiH4yLVZ",
            "_version": 1,
            "found": true,
            "_source": {
                "name": "李四"
            }
        },
        {
            "_index": "haoke",
            "_type": "user",
            "_id": "Fj_Ih24BoifuYiH4mrUZ",
            "_version": 1,
            "found": true,
            "_source": {
                "name": "张三",
                "age": 20
            }
        }
    ]
}

②、_bulk 增删改

格式：

{ action: { metadata }}
{ request body		  }

{ action: { metadata }}
{ request body        }

A、批量添加

请求：

http://IP:9200/_bulk

请求body：
{"create":{"_index":"haoke","_type":"user","_id":"aaa"}}
{"id":1001,"name":"name1","age":20,"sex":"男"}
{"create":{"_index":"haoke","_type":"user","_id":"bbb"}}
{"id":1002,"name":"name2","age":21,"sex":"女"}
{"create":{"_index":"haoke","_type":"user","_id":"ccc"}}
{"id":1003,"name":"name3","age":22,"sex":"女"}

或者：

{"index":{"_index":"haoke","_type":"user","_id":"aaa"}}
{"id":1001,"name":"name1","age":20,"sex":"男"}
{"index":{"_index":"haoke","_type":"user","_id":"bbb"}}
{"id":1002,"name":"name2","age":21,"sex":"女"}
{"index":{"_index":"haoke","_type":"user","_id":"ccc"}}
{"id":1003,"name":"name3","age":22,"sex":"女"}

结果：

在这里插入图片描述

B、批量删除

请求：

POST http://IP:9200/_bulk

请求body：
{"delete":{"_index":"haoke","_type":"user","_id":"aaa"}}
{"delete":{"_index":"haoke","_type":"user","_id":"bbb"}}
{"delete":{"_index":"haoke","_type":"user","_id":"ccc"}}

结果：
在这里插入图片描述

C、批量修改–全量覆盖修改

请求：

http://IP:9200/_bulk

请求body：

{"index":{"_index":"haoke","_type":"user","_id":"aaa"}}
{"id":1001,"name":"name111","age":20,"sex":"男"}
{"index":{"_index":"haoke","_type":"user","_id":"bbb"}}
{"id":1002,"name":"name222","age":21,"sex":"女"}
{"index":{"_index":"haoke","_type":"user","_id":"ccc"}}
{"id":1003,"name":"name333","age":22,"sex":"女"}

结果：

在这里插入图片描述

D、批量修改-局部修改

请求：

http://IP:9200/_bulk

请求body：
{"update":{"_index":"haoke","_type":"user","_id":"aaa"}}
{"doc":{"name":"name111a"}}
{"update":{"_index":"haoke","_type":"user","_id":"bbb"}}
{"doc":{"name":"name222b"}}
{"update":{"_index":"haoke","_type":"user","_id":"ccc"}}
{"doc":{"name":"name333c"}}

结果：

在这里插入图片描述

总结：

一次请求多少性能最高？

整个批量请求需要被加载到接受我们请求节点的内存里，所以请求越大，给其它请求可用的内存就越小。
有一个最佳的bulk请求大小。超过这个大小，性能不再提升而且可能降低。


最佳大小，当然并不是一个固定的数字。它完全取决于你的硬件、你文档的大小和复杂度以及索引和搜索的负载。


幸运的是，这个最佳点(sweetspot)还是容易找到的：试着批量索引标准的文档，随着大小的增长，当性能开始降低，
说明你每个批次的大小太大了。开始的数量可以在1000~5000个文档之间，如果你的文档非常大，可以使用较小的批次。


通常着眼于你请求批次的物理大小是非常有用的。一千个1kB的文档和一千个1MB的文档大不相同。
一个好的批次最好保持在5-15MB大小间。

4、分页

和SQL使用 LIMIT 关键字返回只有一页的结果一样，Elasticsearch接受 from 和 size 参数：

size: 结果数，默认10
from: 跳过开始的结果数，默认0

如果你想每页显示5个结果，页码从1到3，那请求如下：

GET /_search?size=5
GET /_search?size=5&from=5
GET /_search?size=5&from=10

注意：

应该当心分页太深或者一次请求太多的结果。结果在返回前会被排序。但是记住一个搜索请求常常涉及多个分片。
每个分片生成自己排好序的结果，它们接着需要集中起来排序以确保整体排序正确。

为了理解为什么深度分页是有问题的，让我们假设在一个有5个主分片的索引中搜索。当我们请求结果的第一页
（结果1到10）时，每个分片产生自己最顶端10个结果然后返回它们给请求节点(requesting node)，
它再排序这所有的50个结果以选出顶端的10个结果。现在假设我们请求第1000页——结果10001到10010。
工作方式都相同，不同的是每个分片都必须产生顶端的10010个结果。然后请求节点排序这50050个结果并丢
弃50040个！你可以看到在分布式系统中，排序结果的花费随着分页的深入而成倍增长。这也是为什么网络搜
索引擎中任何语句不能返回多于1000个结果的原因。

5、映射

前面我们创建的索引以及插入数据，都是由Elasticsearch进行自动判断类型，有些时候我们是需要进行明确字段类型的，否则，自动判断的类型和实际需求是不相符的。自动判断的规则如下：

JSON type	Field type
Boolean: true or false	“boolean”
Whole number: 123	“long”
Floating point: 123.45	“double”
String, valid date: “2014-09-15”	“date”
String: “foo bar”	“string”

Elasticsearch中支持的类型如下：

类型	表示的数据类型
String	string , text , keyword
Whole number	byte , short , integer , long
Floating point	float , double
Boolean	boolean
Date	date

string类型在ElasticSearch 旧版本中使用较多，从ElasticSearch 5.x开始不再支持string，由text和keyword类型替代。
text 类型，当一个字段是要被全文搜索的，比如Email内容、产品描述，应该使用text类型。设置text类型以后，字段内容会被分析，在生成倒排索引以前，字符串会被分析器分成一个一个词项。text类型的字段不用于排序，很少用于聚合。【要被分词】
keyword类型适用于索引结构化的字段，比如email地址、主机名、状态码和标签。如果字段需要进行过滤(比如查找已发布博客中status属性为published的文章)、排序、聚合。keyword类型的字段只能通过精确值搜索到。【不参与分词】

使用：

##插入索引，并创建映射
PUT /lee
{
    "settings":{
        "index":{
            "number_of_shards":"2",
            "number_of_replicas":"0"
        }
    },
    "mappings":{
        "person":{
            "properties":{
                "name":{
                    "type":"text"
                },
                "age":{
                    "type":"integer"
                },
                "mail":{
                    "type":"keyword"
                },
                "hobby":{
                    "type":"text"
                }
            }
        }
    }
}

##查看映射
GET /lee/_mapping

插入一些数据，后面要用到：

GET /lee/_mapping

{"index":{"_index":"itcast","_type":"person"}}
{"name":"张三","age": 20,"mail": "111@qq.com","hobby":"羽毛球、乒乓球、足球"}
{"index":{"_index":"itcast","_type":"person"}}
{"name":"李四","age": 21,"mail": "222@qq.com","hobby":"羽毛球、乒乓球、足球、篮球"}
{"index":{"_index":"itcast","_type":"person"}}
{"name":"王五","age": 22,"mail": "333@qq.com","hobby":"羽毛球、篮球、游泳、听音乐"}
{"index":{"_index":"itcast","_type":"person"}}
{"name":"赵六","age": 23,"mail": "444@qq.com","hobby":"跑步、游泳"}
{"index":{"_index":"itcast","_type":"person"}}
{"name":"孙七","age": 24,"mail": "555@qq.com","hobby":"听音乐、看电影"}

在这里插入图片描述

6、结构化查询

①、term

term 主要用于精确匹配哪些值，比如**“数字”，“日期"，“布尔值” 或 “不能分词的字符串”**(未经分析的文本数据类型)：

{ "term": { "age": 26} } 
{ "term": { "date":"2014-09-01"} } 
{ "term": { "public": true} } 
{ "term": { "tag": "full_text"} }

示例：（查询年龄为20的person）

POST /lee/person/_search

{
    "query":{
        "term":{
            "age":20
        }
    }
}

注意：

不能匹配text

②、terms

terms 跟 term 有点类似，但 terms 允许指定多个匹配条件。如果某个字段指定了多个值，那么文档需要一起去做匹配：( 类似SQL中的 in )

示例：（查询年龄为20,21,22的person）

POST /lee/person/_search

{
    "query":{
        "terms":{
            "age":[ 20,21,22]
        }
    }
}

③、range

range 过滤允许我们按照指定范围查找一批数据：

符号	意义
gt	大于
gte	大于等于
lt	小于
lte	小于等于

示例：（查询年龄大于等于20小于等于22的人）

POST /lee/person/_search

{
    "query":{
        "range":{
            "age":{
                "gte":20,
                "lte":22
            }
        }
    }
}

④、exists

exists 查询可以用于查找文档中是否包含指定字段或没有某个字段，类似于SQL语句中的 IS_NULL 条件**（字段是否存在）**

语法：

{
	"query":{
		"exists":{
			"field":"字段"
		}
	}
}

示例：

POST http://IP:9200/lee/person/_search

{
	"query":{
		"exists":{
			"field":"gender"
		}
	}
}

⑤、match

match 查询是一个标准查询，不管你需要全文本查询还是精确查询基本上都要用到它。

A、如果你使用 match 查询一个**“全文本字段”，它会在真正查询之前用“分词器”**先分析 match 一下查询字符：

B、如果用 match 下指定了一个确切值，在遇到数字，日期，布尔值或者 不分词的字符串时，它将为你搜索你给定的值：

{ "match": { "age": 26 }}
{ "match": { "date":"2014-09-01" }}
{ "match": { "public": true }}
{ "match": { "tag": "full_text"  }}

⑥、bool

bool 查询可以用来合并多个条件查询结果的布尔逻辑

包含以下几个操作符

操作符	意义
must	多个查询条件的完全匹配,相当于 and
must_not	多个查询条件的相反匹配，相当于 not
should	至少有一个查询条件匹配, 相当于 or

示例：

{
	"query":{
		"bool":{
			"must":{
				"range":{
					"age":{
						"gt":20,
						"lte":22
					}
				}
			},
			"must_not":{
				"term":{  ##注意不能匹配name,因为name是text，可分词的
					"age":21
				}
			}
		}
	}
}

⑦、filter

前面讲过结构化查询，Elasticsearch也支持过滤查询，如term、range、match等。

示例：（查询年龄为20岁的用户）

{
	"query":{
		"bool":{
			"filter":{
				"term":{
					"age":20
				}
			}
		}
	}
}

查询和过滤的对比：

一条过滤语句会询问每个文档的字段值是否包含着特定值。
查询语句会询问每个文档的字段值与特定值的匹配程度如何。
- 一条查询语句会计算每个文档与查询语句的相关性，会给出一个相关性评分 _score，并且按照相关性对匹配到的文档进行排序。这种评分方式非常适用于一个没有完全配置结果的全文本搜索。
一个简单的文档列表，快速匹配运算并存入内存是十分方便的，每个文档仅需要1个字节。这些缓存的过滤结果集与后续请求的结合使用是非常高效的。
查询语句不仅要查找相匹配的文档，还需要计算每个文档的相关性，所以一般来说查询语句要比过滤语句更耗时，并且查询结果也不可缓存。

建议：

做精确匹配搜索时，最好用过滤语句，因为过滤语句可以缓存数据。

二、中文分词

分词就是指将一个文本转化成一系列单词的过程，也叫文本分析，在Elasticsearch中称之为Analysis。

指定分词器进行分词：

POST /_analyze
请求body:
{
    "analyzer":"standard",##标准分词器
    "text":"hello world"##待分词的内容
}

结果：
{
    "tokens": [
        {
            "token": "hello",
            "start_offset": 0,
            "end_offset": 5,
            "type": "<ALPHANUM>",
            "position": 0
        },
        {
            "token": "world",
            "start_offset": 6,
            "end_offset": 11,
            "type": "<ALPHANUM>",
            "position": 1
        }
    ]
}

指定索引分词

POST /lee/_analyze

请求body：
{
    "analyzer":"standard",
    "filed":"hobby",
    "text":"听音乐"
}

结果：
{
    "tokens": [
        {
            "token": "听",
            "start_offset": 0,
            "end_offset": 1,
            "type": "<IDEOGRAPHIC>",
            "position": 0
        },
        {
            "token": "音",
            "start_offset": 1,
            "end_offset": 2,
            "type": "<IDEOGRAPHIC>",
            "position": 1
        },
        {
            "token": "乐",
            "start_offset": 2,
            "end_offset": 3,
            "type": "<IDEOGRAPHIC>",
            "position": 2
        }
    ]
}

中文分词的难点在于，在汉语中没有明显的词汇分界点，如在英语中，空格可以作为分隔符，如果分隔不正确就会造成歧义。

常用中文分词器，IK、jieba、THULAC等，推荐使用IK分词器。

IK分词器 Elasticsearch插件地址：https://github.com/medcl/elasticsearch-analysis-ik

IK分词器安装：

将elasticsearch-analysis-ik-6.5.4.zip 安装到 es的plugin目录的ik目录下
1、创建ik目录
cd /es/plugin
mkdir ik

2、解压
unzip elasticsearch-analysis-ik-6.5.4.zip
(unzip命令不可用的，安装yum install -y unzip zip)

3、启动
su elsearch  ##切换elsearch用户
cd es/bin
./elasticsearch -d

测试中文分词：

POST /_analyze

#请求body
{
    "analyzer":"ik_max_word",
    "text":"我是中国人"
}

##结果：
{
    "tokens": [
        {
            "token": "我",
            "start_offset": 0,
            "end_offset": 1,
            "type": "CN_CHAR",
            "position": 0
        },
        {
            "token": "是",
            "start_offset": 1,
            "end_offset": 2,
            "type": "CN_CHAR",
            "position": 1
        },
        {
            "token": "中国人",
            "start_offset": 2,
            "end_offset": 5,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "中国",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 3
        },
        {
            "token": "国人",
            "start_offset": 3,
            "end_offset": 5,
            "type": "CN_WORD",
            "position": 4
        }
    ]
}