目录
- 什么是分词器
- ElasticSearch中的分词器种类
- 标准分词器(Standard Analyzer)
- 简单分词器(Simple Analyzer)
- 空格分词器(Whitespace Analyzer)
- 语言分词器(Language Analyzers)
- 拼音分词器(Pinyin Analyzer)
- 中文分词器(IK分词器)
- 自定义分词器
- 如何选择合适的分词器
- 总结
什么是分词器
在搜索引擎中,分词器的作用是将一段文本分解为若干个词语或词组,称为“词项”(token),并去除掉不必要的标点、空格等符号,从而将文本处理为更适合检索的结构化数据。在ElasticSearch中,分词器(Analyzer)通常由以下三部分组成:
- 字符过滤器(Character Filter):首先对文本进行预处理,如移除HTML标签、替换特定字符等。
- 分词器(Tokenizer):将预处理后的文本分解为一个个词项(token)。
- 词项过滤器(Token Filter)