Elasticsearch分析器（Analyzer）的组成结构解析

晏宇稳

于 2025-05-30 09:03:02 发布

阅读量332

点赞数 3

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_00958/article/details/148323563

Elasticsearch分析器（Analyzer）的组成结构解析

elasticsearch 项目地址: https://gitcode.com/gh_mirrors/elas/elasticsearch

什么是分析器

在Elasticsearch中，分析器（Analyzer）是文本处理的核心组件，负责将原始文本转换为可搜索的术语（term）。无论是内置分析器还是自定义分析器，本质上都是由三个基础构建块组成的处理管道：字符过滤器（Character Filters）、分词器（Tokenizer）和词元过滤器（Token Filters）。

分析器的三大组件

1. 字符过滤器（Character Filters）

字符过滤器是文本处理的第一道工序，它接收原始字符流，并对其进行预处理。主要功能包括：

添加、删除或修改字符
处理特殊字符或格式
执行字符级别的转换

典型应用场景：

将全角数字转换为半角数字
去除HTML标签
替换特定字符（如将"&"转换为"and"）

一个分析器可以包含零个或多个字符过滤器，它们会按照定义的顺序依次执行。

2. 分词器（Tokenizer）

分词器是分析器的核心组件，负责将字符流切分为有意义的词元（token）。它的主要职责包括：

将连续字符流分割为独立的词元（通常是单词）
记录每个词元的位置信息
记录原始文本中每个词元的字符偏移量

常见分词器示例：

空白分词器（whitespace）：按空格分割文本
标准分词器（standard）：基于语法规则进行分词
关键词分词器（keyword）：将整个文本作为一个词元

每个分析器必须且只能包含一个分词器。

3. 词元过滤器（Token Filters）

词元过滤器对分词器输出的词元流进行进一步处理，主要功能包括：

添加、删除或修改词元
转换词元形式
丰富词元信息

常见词元过滤器：

小写过滤器（lowercase）：将所有词元转为小写
停用词过滤器（stop）：移除常见无意义词（如"the"、"a"）
同义词过滤器（synonym）：添加同义词词元
词干提取过滤器（stemmer）：将词元转换为其词干形式

一个分析器可以包含零个或多个词元过滤器，它们会按照定义的顺序依次执行。

分析器的工作流程

当文档被索引或搜索时，分析器会按照以下顺序处理文本：

字符过滤器处理原始文本
分词器将处理后的文本切分为词元
词元过滤器对词元流进行进一步处理

最终输出的词元将被用于构建倒排索引或处理搜索查询。

内置分析器与自定义分析器

Elasticsearch提供了多种内置分析器，如标准分析器（standard）、简单分析器（simple）、语言分析器（如english、chinese）等，它们已经预配置了适合特定场景的组件组合。

当内置分析器无法满足需求时，用户可以基于上述三大组件创建自定义分析器，通过灵活组合不同的字符过滤器、分词器和词元过滤器，实现特定的文本处理需求。

理解分析器的组成结构和工作原理，对于优化Elasticsearch的搜索性能和结果相关性至关重要。通过合理配置分析器，可以显著提升搜索体验和准确性。

elasticsearch 项目地址: https://gitcode.com/gh_mirrors/elas/elasticsearch

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

晏宇稳 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。