【Elasticsearch】分析器的构成

最新推荐文章于 2025-12-01 16:49:36 发布

原创

最新推荐文章于 2025-12-01 16:49:36 发布 · 601 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

在Elasticsearch中，分析器（Analyzer）是一个处理文本数据的管道，它将输入的文本转换为一系列词元（tokens），并可以对这些词元进行进一步的处理和规范化。分析器由以下三个主要组件构成：

1.字符过滤器（Character Filters）

字符过滤器是分析器管道中的第一步，用于对输入文本进行预处理。它们可以添加、删除或修改文本中的字符。字符过滤器是可选的，一个分析器可以有零个或多个字符过滤器。

• 常见用途：例如，可以使用字符过滤器去除HTML标签（如`<b>`、`<h1>`等），或者将某些特定字符替换为其他字符。

• 示例：如果输入文本是`<p>Ironman is flying</p>`，通过`html_strip`字符过滤器后，文本会被转换为`Ironman is flying`。

2.分词器（Tokenizer）

分词器是分析器的核心组件，负责将文本分割成单独的词元（tokens）。分词器根据特定的规则（如空白字符、标点符号或语言规则）将文本拆分为多个词元。一个分析器必须且只能有一个分词器。

• 常见分词器：

• 标准分词器（Standard Tokenizer）：根据语法和标点符号将文本分割成词元。

• 空白分词器（Whitespace Tokenizer）：在遇到空白字符时将文本分割成词元。

• N-gram分词器：生成文本的N-gram片段，常用于自动补全。

• 示例：对于文本`Ironman is flying`，使用空白分词器会生成词元`[Ironman, is, flying]`。

3.词元过滤器（Token Filters）

词元过滤器是分析器管道中的最后一步，用于对分词器生成的词元进行进一步处理。它们可以添加、修改或删除词元，但不能改变词元的位置或字符偏移量。

• 常见用途：

• 小写过滤器（Lowercase Token Filter）：将所有词元转换为小写。

• 停用词过滤器（Stop Token Filter）：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。