Elasticsearch权威指南：处理带重音符号的文本规范化技术-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00615/article/details/148576800

Elasticsearch权威指南：处理带重音符号的文本规范化技术

elasticsearch-definitive-guide The Definitive Guide to Elasticsearch 项目地址: https://gitcode.com/gh_mirrors/el/elasticsearch-definitive-guide

引言：重音符号在文本处理中的挑战

在文本搜索和分析过程中，重音符号（diacritics）的处理是一个常见但容易被忽视的问题。重音符号是指附加在字母上的各种标记符号，如法语中的é、ê，德语中的ü等。这些符号在不同语言中扮演着不同角色，有时是可有可无的变体，有时则是区分词义的关键要素。

ASCII折叠过滤器的工作原理

Elasticsearch提供了asciifolding过滤器来解决这个问题。这个过滤器不仅会移除重音符号，还能将许多Unicode字符转换为其ASCII近似表示：

将ß转换为ss
将æ转换为ae
将ł转换为l
将⁇转换为??
将数字符号如❷转换为2

这种转换使得搜索可以不受重音符号的限制，提高匹配率。例如，用户搜索"role"时也能匹配到"rôle"。

实现ASCII折叠的配置方法

在Elasticsearch中配置带ASCII折叠的分析器非常简单：

PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "folding": {
          "tokenizer": "standard",
          "filter": ["lowercase", "asciifolding"]
        }
      }
    }
  }
}

这个配置创建了一个名为"folding"的分析器，它会先进行标准分词，然后转为小写，最后应用ASCII折叠处理。

语义保留的挑战与解决方案

虽然ASCII折叠提高了搜索的召回率，但它也带来了语义损失的问题。以西班牙语为例：

"esta"（这个，阴性形式）
"ésta"（"esta"的古体形式）
"está"（动词"estar"的第三人称形式）

前两个词可以合并，但第三个词需要保持区分。类似的情况还有：

"sé"（我知道）
"se"（反身代词）

双字段索引策略

为了解决这个问题，Elasticsearch推荐使用多字段(multi-field)映射：

PUT /my_index/_mapping/my_type
{
  "properties": {
    "title": {
      "type": "string",
      "analyzer": "standard",
      "fields": {
        "folded": {
          "type": "string",
          "analyzer": "folding"
        }
      }
    }
  }
}

这种配置会：

在title字段保留原始文本（含重音符号）
在title.folded子字段存储折叠后的版本

搜索优化实践

使用多字段匹配查询可以同时利用两个字段的优势：

GET /my_index/_search
{
  "query": {
    "multi_match": {
      "type": "most_fields",
      "query": "esta loca",
      "fields": ["title", "title.folded"]
    }
  }
}

这种策略实现了：