Elasticsearch让 keyword 和 term 忽略大小写

最新推荐文章于 2025-02-13 14:44:16 发布

lzzyok

最新推荐文章于 2025-02-13 14:44:16 发布

阅读量1.1w

点赞数 5

分类专栏： Elasticsearch

本文链接：https://blog.youkuaiyun.com/lzzyok/article/details/107051689

版权

Elasticsearch 专栏收录该内容

11 篇文章

订阅专栏

在 Elasticsearch 中处理字符串类型的数据时，如果我们想把整个数据作为一个完整的 term 存储，我们通常会将其类型（ type） 设定为 keyword。而这种设定又会给我们带来麻烦，比如 Bar、bar两个实际都是 bar，但当我们去搜索 bar时却无法返回 Bar的文档。要解决这个问题，就需要 Normalizer出场了！


PUT test_normalizer
{
  "mappings": {
    "properties": {
        "foo":{
          "type":"keyword"
        }
      }
  }
}

PUT test_normalizer/_doc/1
{
  "foo":"bar"
}

PUT test_normalizer/_doc/2
{
  "foo":"Bar"
}


# 查询一 
GET test_normalizer/_search
{
  "query": {
    "match":{
      "foo":"bar"
    }
  }
}

# 查询二
GET test_normalizer/_search
{
  "query": {
    "match":{
      "foo":"BAr"
    }
  }
}
# 查询三
GET test_normalizer/_search
{
  "query": {
    "term":{
      "foo":"baR"
    }
  }
}

结果：

查询一：返回 id=1的数据

查询二、查询三：查询不到数据

原因：

写入 Elasticsearch时由于字段的 type是 keyword,分词结果为原始字符串（type=string时，是转为小写创建索引的）
查询 Query 时分词默认是采用和字段写时相同的配置，因此这里也就是 keyword，这查就是直接把内容去匹配了；从而查询一可以匹配到数据，查询二、三查询不到数据；
注意：term是代表完全匹配，即查询的关键词不会被分词处理；

解决方案：Normalizer


DELETE test_normalizer
# 自定义 normalizer

PUT test_normalizer
{
  "settings": {
    "analysis": {
      "normalizer": {
        "lowercase": {
          "type": "custom",
          "filter": ["lowercase"]
        }
      }
    }
  },
  "mappings": {
      "properties": {
        "foo": {
          "type": "keyword"
        },
        "foo_normalizer": {
          "type": "keyword",
          "normalizer": "lowercase"
        }
    }
  }
}

PUT test_normalizer/_doc/1
{
  "foo": "bar",
  "foo_normalizer": "bar"
}
PUT test_normalizer/_doc/2
{
  "foo": "Bar",
  "foo_normalizer": "Bar"
}

# 查询三
GET test_normalizer/_search
{
  "query": {
    "term":{
      "foo":"BaR"
    }
  }
}
# 查询四
GET test_normalizer/_search
{
  "query": {
    "term":{
      "foo_normalizer":"bAr"
    }
  }
}

1、normalizer是 keyword的一个属性，可以对 keyword生成的单一 Term再做进一步的处理，比如 lowercase，即做小写变换。使用方法和自定义分词器有些类似。

2、我们第一步是自定义了名为 lowercase的 normalizer，其中filter 类似自定义分词器中的 filter ，normalizer中可可用的filtr种类很少，详情大家可以查看官方文档。

3、通过 normalizer属性设定到指定字段type_normalizer中；

4、然后插入相同的2条文档。执行发现，查询三无结果返回，查询四返回2条文档。

流程说明：