[Elasticsearch] 向已存在的索引中添加自定义filter/analyzer

本文介绍如何在已存在的Elasticsearch索引中添加自定义的Analyzer和Filter,包括遇到的问题及两种解决方案:重建索引和使用_open与_close端点进行更新。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题描述

随着应用的不断升级,索引中的类型也会越来越多,新增加的类型中势必会使用到一些自定义的Analyzer。但是通过_settings端点的更新API不能直接在已经存在的索引上使用。在sense中进行更新时会抛出异常:

PUT /symbol
{
  "settings": {
    "analysis": {
      "filter": {
        "edgengram": {
           "type": "edgeNGram",
           "min_gram": "1",
           "max_gram": "255"
        }
      },
      "analyzer": {
        "symbol_analyzer": {
          "type": "custom",
          "char_filter": [],
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "word_delimiter"
          ]
        },
        "back_edge_ngram_analyzer": {
          "type": "custom",
          "char_filter": [],
          "tokenizer": "whitespace",
          "filter": [
            "reverse",
            "edgengram",
            "reverse"
          ]
        }
      }
    }
  }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35

上例中,我们希望向名为symbol的索引中添加一个filter和两个analyzers。但是会抛出如下的错误信息:

{
   "error": "IndexAlreadyExistsException[[symbol] already exists]",
   "status": 400
}
  • 1
  • 2
  • 3
  • 4
  • 1
  • 2
  • 3
  • 4

提示我们该索引已经存在了,无法添加。


解决方案

最直观的解决方案是首先备份该索引中已经存在的数据,然后删除它再重建该索引。这种方式比较暴力,当索引中已经存在相当多的数据时,不建议这样做。

另外一种方案是使用_open和_close这一对端点,首先将目标索引关闭,执行需要的更新操作,然后再打开该索引。

POST /symbol/_close

PUT /symbol/_settings
{
  "settings": {
    ....    
  }
}

POST /symbol/_open
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

这样就避免了需要重建索引的麻烦。有了新添加的filter和analyzer,就可以根据需要再对types中的mappings进行更新了。

### Elasticsearch 中文分词器自定义配置 #### 安装 IK 分词器 为了更好地支持中文分词,通常会选择安装 `IK` 分词器。该分词器能够更精确地解析中文文本。 对于特定版本的 Elasticsearch (例如 7.8.0),可以从官方 GitHub 发布页面下载对应版本的 IK 插件包[^2]: ```bash wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.8.0/elasticsearch-analysis-ik-7.8.0.zip ``` 解压文件并将插件放置到 Elasticsearch 的 plugins 文件夹下,重启服务使新加载的组件生效。 #### 创建自定义 Analyzer 创建一个新的索引时可以指定使用 IK 分词器作为默认或自定义分析链的一部分。下面展示了一个 JSON 请求体的例子用于设置名为 "my_index" 的索引及其关联的映射结构[^3]: ```json PUT /my_index { "settings": { "analysis": { "analyzer": { "custom_ik_analyzer": { "type": "custom", "tokenizer": "ik_max_word", "filter": ["lowercase"] } } } }, "mappings": { "_doc": { "properties": { "content": { "type": "text", "analyzer": "custom_ik_analyzer" } } } } } ``` 此配置中,“custom_ik_analyzer” 是基于 “ik_max_word” 进行最大粒度切分,并应用了大小写转换过滤器以增强查询灵活性[^4]。 #### 测试分词效果 通过 `_analyze` API 可以即时查看某个字符串经过所选分词器后的实际分割情况: ```json POST my_index/_analyze { "analyzer": "custom_ik_analyzer", "text": "这是一个测试例子" } ``` 上述命令会返回由“custom_ik_analyzer” 处理过的词条列表,帮助确认分词逻辑是否符合预期。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值