Elasticsearch权威指南：排序与字符校对技术解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00858/article/details/148576819

Elasticsearch权威指南：排序与字符校对技术解析

elasticsearch-definitive-guide The Definitive Guide to Elasticsearch 项目地址: https://gitcode.com/gh_mirrors/el/elasticsearch-definitive-guide

引言

在全文搜索领域，排序是一个看似简单实则复杂的课题。Elasticsearch作为领先的搜索引擎，提供了强大的排序功能，但同时也面临着多语言环境下字符排序的挑战。本文将深入探讨Elasticsearch中的排序机制，特别是如何处理不同语言的字符校对规则。

基础排序问题

分析字段与排序的冲突

在Elasticsearch中，字符串字段如果被设置为analyzed（分析字段），它将无法直接用于排序。这是因为分析过程会将文本分解为多个词元（token），而系统无法确定应该使用哪个词元进行排序。

解决方案是使用多字段（multi-field）映射：

{
  "mappings": {
    "user": {
      "properties": {
        "name": {
          "type": "string",
          "fields": {
            "raw": {
              "type": "string",
              "index": "not_analyzed"
            }
          }
        }
      }
    }
  }
}

这里，name用于搜索，而name.raw用于排序。

大小写敏感问题

使用原始字段排序会导致大小写敏感的问题，因为大写字母的字节值小于小写字母。例如，"BROWN"会排在"Boffey"和"bailey"之前，这不符合人类的字母表顺序预期。

大小写不敏感排序

实现方案

我们可以创建一个自定义分析器，确保所有词元都转换为小写：

{
  "settings": {
    "analysis": {
      "analyzer": {
        "case_insensitive_sort": {
          "tokenizer": "keyword",
          "filter": ["lowercase"]
        }
      }
    }
  }
}

然后将其应用于多字段映射：

{
  "properties": {
    "name": {
      "type": "string",
      "fields": {
        "lower_case_sort": {
          "type": "string",
          "analyzer": "case_insensitive_sort"
        }
      }
    }
  }
}

这样排序结果将是：bailey, Boffey, BROWN。

局限性

这种方案虽然解决了英语的大小写问题，但对于其他语言（如德语中的"ö"）仍然存在问题，因为字符的字节顺序并不总是符合语言特定的排序规则。

多语言排序挑战

不同语言有不同的排序规则，例如：

英语/德语：bailey, boffey, böhm, brown
德语电话簿：bailey, böhm, boffey, brown
瑞典语：bailey, boffey, brown, böhm

Unicode校对算法(UCA)

基本概念

Unicode校对算法(UCA)定义了将字符串按预定顺序排序的方法。它使用校对元素表(Collation Element Table)来确定排序规则。

默认的Unicode校对元素表(DUCET)提供了基本的排序规则，但为了满足特定语言的需求，通常需要使用语言特定的校对表。

在Elasticsearch中的实现

Elasticsearch通过icu_collation标记过滤器支持UCA：

{
  "settings": {
    "analysis": {
      "analyzer": {
        "ducet_sort": {
          "tokenizer": "keyword",
          "filter": ["icu_collation"]
        }
      }
    }
  }
}

应用这个分析器后，排序结果会更符合预期：bailey, Boffey, Böhm, BROWN。

语言特定排序

配置语言校对

icu_collation过滤器可以配置为特定语言或变体：

// 德语电话簿排序
{
  "filter": {
    "german_phonebook": {
      "type": "icu_collation",
      "language": "de",
      "country": "DE",
      "variant": "@collation=phonebook"
    }
  }
}

多语言支持

同一字段可以支持多种排序规则：

{
  "properties": {
    "name": {
      "type": "string",
      "fields": {
        "default": {"type": "string", "analyzer": "ducet"},
        "french": {"type": "string", "analyzer": "french"},
        "german": {"type": "string", "analyzer": "german_phonebook"},
        "swedish": {"type": "string", "analyzer": "swedish"}
      }
    }
  }
}