Elasticsearch自定义分析器深度解析-优快云博客

Elasticsearch自定义分析器深度解析

elasticsearch 项目地址: https://gitcode.com/gh_mirrors/elas/elasticsearch

什么是自定义分析器

Elasticsearch的自定义分析器功能允许用户根据特定需求构建专属的文本分析流程。当内置分析器无法满足业务场景时，开发者可以通过组合不同的字符过滤器、分词器和词元过滤器来创建完全定制化的分析解决方案。

自定义分析器核心组件

1. 字符过滤器(Character Filters)

字符过滤器作用于原始文本输入的最前端，用于预处理文本内容。常见用途包括：

去除HTML标签
替换特定字符或模式
转换字符编码

2. 分词器(Tokenizer)

分词器是分析器的核心组件，负责将文本拆分为独立的词元(token)。Elasticsearch提供多种内置分词器，如：

标准分词器(Standard Tokenizer)
关键词分词器(Keyword Tokenizer)
模式分词器(Pattern Tokenizer)

3. 词元过滤器(Token Filters)

词元过滤器对分词器输出的词元进行进一步处理，典型操作包括：

大小写转换
停用词过滤
同义词处理
词干提取

配置参数详解

自定义分析器支持以下关键配置项：

| 参数名 | 必选 | 说明 | |--------|------|------| | type | 否 | 设为"custom"或省略 | | tokenizer | 是 | 指定使用的分词器 | | char_filter | 否 | 字符过滤器数组 | | filter | 否 | 词元过滤器数组 | | position_increment_gap | 否 | 控制数组元素间的词元位置间隔，默认100 |

实战案例解析

基础示例：多语言文本处理

PUT my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_custom_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "char_filter": ["html_strip"],
          "filter": ["lowercase", "asciifolding"]
        }
      }
    }
  }
}

此配置实现以下功能：

使用HTML Strip字符过滤器去除HTML标签
采用标准分词器进行基础分词
通过小写转换过滤器统一大小写
应用ASCII折叠过滤器处理特殊字符

分析效果：输入："Is this déjà vu?" 输出：[ is, this, deja, vu ]

高级示例：情感符号处理

PUT my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_custom_analyzer": {
          "char_filter": ["emoticons"],
          "tokenizer": "punctuation",
          "filter": ["lowercase", "english_stop"]
        }
      },
      "tokenizer": {
        "punctuation": {
          "type": "pattern",
          "pattern": "[ .,!?]"
        }
      },
      "char_filter": {
        "emoticons": {
          "type": "mapping",
          "mappings": [
            ":) => _happy_",
            ":( => _sad_"
          ]
        }
      },
      "filter": {
        "english_stop": {
          "type": "stop",
          "stopwords": "_english_"
        }
      }
    }
  }
}

此配置特色：