Elasticsearch权威指南：语言分析器的使用与实践-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01002/article/details/148576579

Elasticsearch权威指南：语言分析器的使用与实践

elasticsearch-definitive-guide The Definitive Guide to Elasticsearch 项目地址: https://gitcode.com/gh_mirrors/el/elasticsearch-definitive-guide

语言分析器概述

Elasticsearch内置了多种语言分析器，这些分析器开箱即用，无需额外配置即可直接应用于字段映射。语言分析器针对特定语言进行了优化，能够处理该语言特有的分词、词干提取和停用词过滤等任务。

基本使用方法

在字段映射中指定语言分析器非常简单。以下是一个使用英语分析器的示例：

PUT /my_index
{
  "mappings": {
    "blog": {
      "properties": {
        "title": {
          "type":     "text",
          "analyzer": "english"
        }
      }
    }
  }
}

在这个例子中，title字段将使用english分析器而非默认的standard分析器。

语言分析器的特点与局限

使用语言分析器会带来一些信息损失。例如，当我们用英语分析器分析文本"I'm not happy about the foxes"时：

复数形式"foxes"会被词干提取为"fox"，丢失了复数信息
停用词"not"会被移除，改变了句子的原意
其他单词会被标准化处理，如"happy"变为"happi"

这种处理虽然提高了召回率（能匹配更多相关文档），但降低了排序的准确性。

多字段策略：鱼与熊掌兼得

为了解决这个问题，Elasticsearch提供了多字段(multi-fields)功能，允许同一个字段使用不同的分析器进行索引：

PUT /my_index
{
  "mappings": {
    "blog": {
      "properties": {
        "title": {
          "type": "text",
          "fields": {
            "english": {
              "type":     "text",
              "analyzer": "english"
            }
          }
        }
      }
    }
  }
}

这种配置下：

主title字段使用标准分析器，保留原始信息
title.english子字段使用英语分析器，提供词干提取等功能

查询实践

在实际查询时，可以使用多字段匹配(multi_match)来同时利用两种分析方式的优势：

GET /_search
{
  "query": {
    "multi_match": {
      "type":     "most_fields",
      "query":    "not happy foxes",
      "fields": [ "title", "title.english" ]
    }
  }
}

这种查询策略能够：