【ES】--Elasticsearch的分词器详解

DreamBoy_W.W.Y

已于 2024-02-12 15:35:25 修改

阅读量2.4k

点赞数 21

分类专栏：大数据/智能文章标签： elasticsearch

于 2024-02-12 15:07:55 首次发布

本文链接：https://blog.youkuaiyun.com/xunmengyou1990/article/details/136101219

版权

本文详细介绍了Elasticsearch的分词原理及如何调整分词器，包括Standard Analyzer、Simple Analyzer、Stop Analyzer、Whitespace Analyzer等。重点讨论了ik分词器的ik_max_word和ik_smart模式，并给出了针对特定字段的分词测试，如ts_match_analyzer和standard_analyzer的效果。还讲述了如何在已存在的索引上调整分词器，以及如何处理特殊词语不分词，例如通过添加自定义词典到ik分词器。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、前言

最近项目需求，针对客户提出搜索引擎业务要做到自定义个性化，如输入简体或繁体能能够互相查询、有的关键词不能被分词搜索等等。为更好解决这些问题，“分词器”的原理和使用至关重要。

二、分词器原理

当 ES 自带的分词器不能满足需求的情况下，可以通过组合不同的 Character Filters,Tokenizer,Token Filter 来实现。
在这里插入图片描述
首先字符串经过字符过滤器（character filter），他们的工作是在分词前处理字符串。字符过滤器能够去除 HTML 标记，或者转化为“&”为“and”。
然后，分词器（tokenizer）被分词为独立的词【按照一定的规则，对字符串进行划分单词】。一个简单的分词器（tokenizer）可以根据空格或逗号将词语分开。
最后，每个词都通过分词过滤器（Token filter）【将切分的单词进行加工、大小写转换、删除stopwords、增加同义词等】，它可以修改词（例如将“Quick”转为小写），去掉词（例如停用词像“a”、“and”、“the”等等），或者增加词（例如同义词像“a”、“and”、“the”等等）或者增加词（例如同义词像“jump”和“leap”）。

1、常用分词器

Standard Analyzer：默认分词器，按词切分，小写处理
Simple Analyzer：按照非字母切分（符号被过滤），小写处理
Stop Analyzer：小写处理，停用词过滤器（the、a、is等）
Whitespace Analyzer：按照空格切分，不转小写
Keyword Analyzer：不分词，直接将输入当作输出
Patter Analyzer：正则表达式，默认\W+(非字符分割)
Language：提供了30多种常见语言的分词器
Customer Analyzer：自定义分词器