Elastic Search个人学习(4) 分词器 1 char_filter_elastic search char filter-优快云博客

本文链接：https://blog.youkuaiyun.com/Miracle_Lin01/article/details/109101969

本文详细介绍了ElasticSearch中的分词器Analysis和Analyser，它们用于全文分词处理。Analyser由CharacterFilters、Tokenizers和TokenFilters三部分组成。通过实例展示了html_strip、mapping和pattern_replace三种CharacterFilters的使用，分别用于去除HTML标签、字符替换和正则替换，影响到分词结果的位置和偏移信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Elastic Search分词器

Analysis与Analyser:
Analysis是将全文分词的过程， Analysis是通过Analyser实现的。

Analyser由三部分组成: Character Filters, Tokenizers, Token Filters。

(1) Character filter:
对要分词的文本进行预处理，比如去掉html标签, 替换字符。
自带的有:
“html_strip” 去除html标签
“mapping” 进行字符替换,
“pattern replace” 进行正则替换

预处理会影响到后面的tokenizer解析的position和offset信息

Analyzer: html_strip

POST _analyze
{
"tokenizer":"keyword",
"char_filter":"[html_strip]",
"text":"<p>hello world</p>"
}

输出为

{
  "tokens" : [
    {
      "token" : """
hello world
""",
      "start_offset" : 0,
      "end_offset" : 18,
      "type" : "word",
      "position" : 0
    }
  ]
}

可见去除了html标签

Analyzer: mapping

PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "test_analyzer": {
          "tokenizer": "keyword",
          "char_filter": [
            "test_char_filter"
          ]
        }
      },
      "char_filter": {
        "test_char_filter": {
          "type": "mapping",
          "mappings": [
            "1 => 2"
          ]
        }
      }
    }
  }
}

POST my_index/_analyze
{
"analyzer": "test_analyzer",
"text": "My license plate is 111"
}

输出为

{
  "tokens" : [
    {
      "token" : "My license plate is 222",
      "start_offset" : 0,
      "end_offset" : 23,
      "type" : "word",
      "position" : 0
    }
  ]
}

可见1全部被替换成了2

Analyzer: pattern

PUT test_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "test_pattern_analyzer": {
          "tokenizer": "keyword",
          "char_filter": [
            "test_pattern_char_filter"
          ]
        }
      },
      "char_filter": {
        "test_pattern_char_filter": {
          "type": "pattern_replace",
          "pattern": "111",
          "replacement": "2"
        }
      }
    }
  }
}

POST test_index/_analyze
{
"analyzer": "test_pattern_analyzer",
"text": "My license plate is 111"
}

输出为

{
  "tokens" : [
    {
      "token" : "My license plate is 2",
      "start_offset" : 0,
      "end_offset" : 23,
      "type" : "word",
      "position" : 0
    }
  ]
}

可见符合正则的数据都被替换成了2