Elasticsearch 索引分词器

最新推荐文章于 2025-06-14 11:52:12 发布

原创

最新推荐文章于 2025-06-14 11:52:12 发布 · 1.3k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#elk #elasticsearch

本文详细介绍了Elasticsearch中的分词器概念，包括分析器、字符过滤器、分词器和词项过滤器的工作原理。探讨了如何自定义分词器，并通过实例展示了各种内置组件的应用，如HTMLStripCharacterFilter、MappingCharacterFilter、PatternReplaceCharacterFilter等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 认识分词器

1.1 Analyzer 分析器

在ES中一个Analyzer 由下面三种组件组合而成：

• character filter ：字符过滤器，对文本进行字符过滤处理，如处理文本中的html标签字符。处理完后再交给tokenizer进行分词。一个analyzer中可包含0个或多个字符过滤器，多个按配置顺序依次进行处理。

• tokenizer：分词器，对文本进行分词。一个analyzer必需且只可包含一个tokenizer。

• token filter：词项过滤器，对tokenizer分出的词进行过滤处理。如转小写、停用词处理、同义词处理。一个analyzer可包含0个或多个词项过滤器，按配置顺序进行过滤。

1.2 如何测试分词器

POST _analyze
{
  "analyzer": "whitespace",
  "text":     "The quick brown fox."
}

POST _analyze
{
  "tokenizer": "standard",
  "filter":  [ "lowercase", "asciifolding" ],
  "text":      "Is this déja vu?"
}

• position：第几个词

• offset：词的偏移位置

2. 内建的character filter

HTML Strip Character Filter

　　html_strip ：过滤html标签，解码HTML entities like &.

Mapping Character Filter

　　mapping ：用指定的字符串替换文本中的某字符串。

Pattern Replace Character Filter

　　pattern_replace ：进行正则表达式替换。

2.1 HTML Strip Character Filter

POST _analyze
{
  "tokenizer":      "keyword", 
  "char_filter":  [ "html_strip" ],
  "text": "<p>I&apos;m so <b>happy</b>!</p>"
}

最低0.47元/天解锁文章

200万优质内容无限畅学