ES中字符串keyword和text类型区别

本文介绍了ES中text和keyword字段的区别,text用于全文搜索,可能导致模糊匹配,而keyword用于精确匹配。默认情况下,字符串字段既有text也有keyword类型,match查询会分词并与所有类型的数据对比,而term查询仅精确匹配。

text文本类型或keyword关键字类型

ES2.*版本里面是没有这两个字段,只有string字段。ES5.*及以后的版本,把string字段设置为了过时字段,引入text,keyword字段。

一切文本类型的字符串可以定义成 text文本类型或keyword关键字类型两种类型。区别在于:

  • text类型(文本类型)会使用默认分词器分词,也就是存入的数据会先进行分词,然后将分完词的词组存入索引,当然你也可以为他指定特定的分词器。text类型检索不是直接给出是否匹配,而是检索出相似度,并按照相似度由高到低返回结果。这样会导致本来我们认为应该查询出来的数据有可能会查询不到。

  • keyword类型(关键字类型),那么默认就不会对其进行分词,原样存储。当一个字段需要按照精确值进行过滤、排序、聚合等操作时, 就应该使用keyword类型。keyword类型检索,直接被存储为了二进制,检索时我们直接匹配,不匹配就返回false。所以精确匹配可以用keyword。

那为什么我们有时候使用查询条件时,查询条件里加keyword和不加keyword得到结果有时候和预想当中的不一样呢?

我们来看看,ES默认对字符串类型数据的mapping既有text也有keyword类型,比如:

PUT /test/_doc/1
{
  "name":"张三",
  "address":"广东深圳",
  "age":12
}

PUT /test/_doc/2
{
  "name":"李四",
  "address":"广西南宁",
  "age":13
}

查看该索引的mapping,GET /test/_mapping:

{
    "test":{
        "mappings":{
            "properties":{
                "address":{
                    "type":"text",
                    "fields":{
                        "keyword":{
                            "type":"keyword",
                            "ignore_above":256
                        }
                    }
                },
                "age":{
                    "type":"long"
                },
                "name":{
                    "type":"text",
                    "fields":{
                        "keyword":{
                            "type":"keyword",
                            "ignore_above":256
                        }
                    }
                }
            }
        }
    }
}

可以看到ES默认对字符串类型数据的mapping既有text也有keyword类型

1 match查询

match查询会分析查询条件,先将查询条件进行分词,然后查询,求并集

(1)match查询不加keyword:

GET /test/_search
{
  "query": {
    "match": {
      "address":"广东深圳"
    }
  }
}

结果是我们插入的两条数据都会查询出来。

我们可以查看索引中数据的分词结果: GET /test/_doc/1/_termvectors?fields=address

在这里插入图片描述

可以看到,这里的数据被ES分为了4个词分别是“广” ,“东”,“深”,“圳”。同样,第二条数据也被分为了“广” ,“西”,“南”,“宁”。(这和分词器有关)

这里可以理解为:

  • keyword类型存储的数据为“广东深圳”(存储未分词的原始数据)
  • text类型存储的数据为“广” ,“东”,“深”,“圳”(存储分词后的)

之所以查到两条,原因是,match查询会将查询条件分词,也就是查询条件(广东深圳)会被分词为“广” ,“东”,“深”,“圳”和原始数据“广东深圳”的分词数据做比对,前面说了,字符串默认是既有text类型,又有keyword类型,没有加keyword,查询的就是text类型的,所以命中了两条数据。

(2)match查询加keyword:

GET /test/_search
{
  "query": {
    "match": {
      "address.keyword":"广东深圳"
    }
  }
}

不出意外,只命中了一条

在这里插入图片描述

但将查询条件由广东深圳–>广东深,结果会怎样呢?

GET /test/_search
{
  "query": {
    "match": {
      "address.keyword":"广东深"
    }
  }
}

结果就是一条都没中,match查询不是会对查询条件分词吗?怎么一条都没有命中

原因是不管加没加keyword,只要是match查询,都会对查询条件进行分词,但是加了keyword,ES只会去检索keyword类型里存储的数据(此时原始数据“广东深圳”不分词,就只有“广东深圳”这个词),不加keyword,ES只会去检索text类型里存储的数据

2 term 查询

不会分析查询条件,只有当词条和查询字符串完全匹配时才匹配,也就是精确查找

(1)term查询不加keyword:

GET /test/_search
{
  "query": {
    "term": {
      "address":"广东深圳"
    }
  }
}

不出意料,一条也没有命中,原因是term不会分词,不加keyword,ES只会去检索text类型里面的数据,自然匹配不到。

这里就是条件"广东深圳" 与分词结果( “广” ,“东”,“深”,“圳”)做比对。

(2)term查询不加keyword:

GET /test/_search
{
  "query": {
    "term": {
      "address.keyword":"广东深圳"
    }
  }
}

不出意料命中了一条。

这里就是条件"广东深圳" 与分词结果(“广东深圳”)做比对。

总结

match查询会对条件分词(注意,也会保留一份未分词的原始条件去查询),term查询不会对条件分词

查询条件加keyword和不加keyword,决定了查询的是存储在keyword类型里面的数据还是存储在text类型里面的数据(也就是说 和不分词,还是分词的数据做比对)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

悬浮海

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值