Elasticsearch内置分析器详解：从原理到应用实践-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00010/article/details/148323560

Elasticsearch内置分析器详解：从原理到应用实践

elasticsearch 项目地址: https://gitcode.com/gh_mirrors/elas/elasticsearch

一、分析器概述

在Elasticsearch中，分析器（Analyzer）是文本处理的核心组件，负责将原始文本转换为可搜索的倒排索引。一个完整的分析器由三部分组成：

字符过滤器（Character Filters）：预处理原始文本
分词器（Tokenizer）：将文本切分为词元（Token）
词元过滤器（Token Filters）：对词元进行进一步处理

Elasticsearch提供了多种开箱即用的内置分析器，开发者无需额外配置即可直接使用。

二、内置分析器详解

1. 标准分析器（Standard Analyzer）

标准分析器是Elasticsearch的默认分析器，采用以下处理流程：

使用Unicode文本分割算法进行分词
移除大部分标点符号
将所有词元转为小写
可选配置停用词列表

适用场景：大多数语言的通用文本分析，特别是英文内容。

2. 简单分析器（Simple Analyzer）

简单分析器处理逻辑较为基础：

遇到非字母字符时进行分词
自动将所有词元转为小写
不处理标点符号

特点：适合处理简单的字母文本，不考虑语言特性。

3. 空格分析器（Whitespace Analyzer）

最基础的分析器之一：

仅根据空白字符（空格、制表符等）进行分词
保留原始大小写
不进行任何规范化处理

使用场景：需要保留原始大小写和特殊字符的场景。

4. 停用词分析器（Stop Analyzer）

在简单分析器基础上增强：

继承简单分析器的分词逻辑
增加停用词过滤功能
默认使用英语停用词表

注意：对于中文等语言效果有限，建议使用特定语言分析器。

5. 关键词分析器（Keyword Analyzer）

特殊用途分析器：

将整个输入文本作为单个词元输出
不进行任何分词或处理
保留原始文本的完整形式

典型应用：不需要分词的字段，如ID、标签等。

6. 模式分析器（Pattern Analyzer）

基于正则表达式的强大分析器：

使用配置的正则表达式进行分词
支持小写转换
可配置停用词

优势：可以自定义复杂的分词规则。

7. 语言分析器（Language Analyzers）

Elasticsearch提供了针对特定语言的优化分析器：

支持30+种语言（英语、法语、中文等）
包含语言特定的停用词表
实现词干提取等语言特性处理

中文用户注意：中文分析需要额外插件支持。

8. 指纹分析器（Fingerprint Analyzer）

专用分析器特性：

生成可用于重复检测的文本指纹
自动处理步骤包括：
- 转为小写
- 移除扩展字符
- 排序去重
- 连接为单个词元

应用场景：数据去重、相似性检测等。

三、自定义分析器实践指南

当内置分析器无法满足需求时，可以创建自定义分析器：

选择字符过滤器（可选）：
- HTML剥离
- 字符映射
- 正则替换
选择分词器：
- 标准分词器
- 字母分词器
- 正则分词器等
添加词元过滤器（可选）：
- 小写转换
- 同义词
- 词干提取等

配置示例：

{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_custom_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "char_filter": ["html_strip"],
          "filter": ["lowercase", "asciifolding"]
        }
      }
    }
  }
}