Elasticsearch权威指南：深入理解分析器配置

最新推荐文章于 2025-06-11 09:07:26 发布

骆宜鸣King

最新推荐文章于 2025-06-11 09:07:26 发布

阅读量284

点赞数 3

本文链接：https://blog.youkuaiyun.com/gitblog_00146/article/details/148575889

版权

Elasticsearch权威指南：深入理解分析器配置

elasticsearch-definitive-guide The Definitive Guide to Elasticsearch 项目地址: https://gitcode.com/gh_mirrors/el/elasticsearch-definitive-guide

分析器概述

在Elasticsearch中，分析器是全文索引和搜索的核心组件。它负责将原始文本转换为可搜索的术语（terms），这个过程通常包括三个主要步骤：字符过滤、分词和词元过滤。

标准分析器详解

Elasticsearch默认使用标准分析器（standard analyzer），它特别适合处理大多数西方语言文本。标准分析器由以下几个组件构成：

标准分词器（standard tokenizer）：基于Unicode文本分割算法，在单词边界处分割文本
标准词元过滤器（standard token filter）：目前作为占位符存在，实际上不做任何处理
小写词元过滤器（lowercase token filter）：将所有词元转换为小写形式
停用词过滤器（stop token filter）：默认不启用，可移除常见但对搜索相关性影响小的词

自定义分析器配置

虽然标准分析器在大多数情况下表现良好，但有时我们需要根据特定需求创建自定义分析器。例如，处理西班牙语文档时，我们可能希望启用西班牙语停用词过滤。

创建西班牙语分析器示例

PUT /spanish_docs
{
    "settings": {
        "analysis": {
            "analyzer": {
                "es_std": {
                    "type": "standard",
                    "stopwords": "_spanish_"
                }
            }
        }
    }
}

这个配置创建了一个名为es_std的分析器，它基于标准分析器但启用了西班牙语停用词列表。Elasticsearch内置了多种语言的停用词列表，使用时只需在stopwords参数中指定相应语言代码前加下划线（如_spanish_）。

测试自定义分析器

创建分析器后，我们可以使用分析API来测试其效果：

GET /spanish_docs/_analyze
{
  "analyzer": "es_std",
  "text": "El veloz zorro marrón"
}

预期输出将显示西班牙语停用词"El"已被正确移除：

{
  "tokens" : [
    { "token" : "veloz", "position" : 2 },
    { "token" : "zorro", "position" : 3 },
    { "token" : "marrón", "position" : 4 }
  ]
}