Elasticsearch中的Normalizers（规范化器）深度解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00310/article/details/148323566

Elasticsearch中的Normalizers（规范化器）深度解析

elasticsearch 项目地址: https://gitcode.com/gh_mirrors/elas/elasticsearch

什么是Normalizers

Normalizers（规范化器）是Elasticsearch中一种特殊的文本处理工具，它与分析器（Analyzer）类似但更为精简。Normalizers主要用于处理不需要分词（tokenization）的场景，它只能输出单个token，这使得它特别适合用于keyword类型字段的预处理。

与完整分析器相比，Normalizers有以下关键区别：

不能包含tokenizer（分词器）
只能使用特定的字符过滤器（char filters）和token过滤器（token filters）
输出结果始终是单个token

Normalizers的核心组件

可用的字符过滤器

Normalizers支持使用字符过滤器对原始文本进行预处理，例如：

特殊字符转换（如将«»转换为引号）
Unicode字符规范化

可用的token过滤器

由于Normalizers只能输出单个token，因此只能使用基于单个字符操作的过滤器，包括：

lowercase：转换为小写
asciifolding：将非ASCII字符转换为ASCII近似字符
trim：去除前后空格
uppercase：转换为大写
各种语言的规范化过滤器（如german_normalization、hindi_normalization等）

注意：像词干提取（stemming）这类需要查看整个单词的过滤器不能用于Normalizers。

内置Normalizers

Elasticsearch默认提供了一个内置的lowercase规范化器，它会将文本转换为小写形式。对于更复杂的需求，需要自定义Normalizers。

自定义Normalizers实战

下面通过一个完整示例展示如何创建和使用自定义Normalizer：

PUT index
{
  "settings": {
    "analysis": {
      "char_filter": {
        "quote": {
          "type": "mapping",
          "mappings": [
            "« => \"",
            "» => \""
          ]
        }
      },
      "normalizer": {
        "my_normalizer": {
          "type": "custom",
          "char_filter": ["quote"],
          "filter": ["lowercase", "asciifolding"]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "foo": {
        "type": "keyword",
        "normalizer": "my_normalizer"
      }
    }
  }
}

这个示例中：

首先定义了一个字符过滤器quote，将法语引号«»转换为标准引号
然后创建了一个名为my_normalizer的自定义Normalizer，它：
- 使用quote字符过滤器
- 依次应用lowercase和asciifolding过滤器
最后在映射中将这个Normalizer应用于foo字段