Elasticsearch权威指南：深入理解词干提取控制技术-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00092/article/details/148576830

Elasticsearch权威指南：深入理解词干提取控制技术

elasticsearch-definitive-guide The Definitive Guide to Elasticsearch 项目地址: https://gitcode.com/gh_mirrors/el/elasticsearch-definitive-guide

词干提取的挑战与解决方案

在全文搜索领域，词干提取(Stemming)是一项关键技术，它能够将单词还原到其基本形式，从而提升搜索召回率。然而，开箱即用的词干提取解决方案往往存在局限性。特别是基于算法的词干提取器会机械地应用规则处理所有遇到的单词，有时会导致我们不希望看到的词干合并。

例如，在英语中，"skies"(天空复数)和"skiing"(滑雪)可能被提取为相同的词干"ski"，这显然不符合语义需求。Elasticsearch提供了两种强大的token过滤器来解决这个问题：keyword_marker和stemmer_override。

防止特定词被提取

keyword_marker过滤器

keyword_marker token过滤器允许我们将特定单词标记为关键词，从而阻止后续的词干提取过程对这些词进行处理。这在需要保留某些单词原始形式时特别有用。

实现示例：

PUT /my_index
{
  "settings": {
    "analysis": {
      "filter": {
        "no_stem": {
          "type": "keyword_marker",
          "keywords": [ "skies" ]
        }
      },
      "analyzer": {
        "my_english": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "no_stem",
            "porter_stem"
          ]
        }
      }
    }
  }
}

这个自定义分析器配置中：

使用标准分词器
进行小写转换
应用keyword_marker过滤保护"skies"不被提取
最后使用porter_stem进行词干提取

测试结果会显示"skies"保持原样，而其他相关词如"skiing"会被正确提取。

进阶技巧

除了直接在配置中列出关键词，还可以使用keywords_path参数指定一个关键词文件，这在需要管理大量例外词时特别方便。文件应每行一个词，且必须存在于集群的每个节点上。

自定义词干提取规则

stemmer_override过滤器

当简单的阻止提取不能满足需求时，stemmer_override token过滤器提供了更精细的控制能力。它允许我们定义自己的词干提取规则，处理那些算法提取器无法正确处理的情况。

典型应用场景包括：

将"skies"提取为"sky"而非"ski"
处理不规则复数形式，如"mice"→"mouse"
处理不规则动词变化，如"feet"→"foot"

配置示例：

PUT /my_index
{
  "settings": {
    "analysis": {
      "filter": {
        "custom_stem": {
          "type": "stemmer_override",
          "rules": [
            "skies=>sky",
            "mice=>mouse",
            "feet=>foot"
          ]
        }
      },
      "analyzer": {
        "my_english": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "custom_stem",
            "porter_stem"
          ]
        }
      }
    }
  }
}

关键注意事项：