修改ES默认分词设置

最新推荐文章于 2025-09-15 13:22:33 发布

原创最新推荐文章于 2025-09-15 13:22:33 发布 · 2.7w 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#ES默认分词

数据检索专栏收录该内容

12 篇文章

订阅专栏

ES的默认分词设置是standard，这个在中文分词时就比较尴尬了，会单字拆分，比如我搜索关键词“清华大学”，这时候会按“清”，“华”，“大”，“学”去分词，然后搜出来的都是些“清清的河水”，“中华儿女”，“地大物博”，“学而不思则罔”之类的莫名其妙的结果，这里我们就想把这个分词方式修改一下，于是呢，就想到了ik分词器，有两种ik_smart和ik_max_word。

ik_smart会将“清华大学”整个分为一个词，而ik_max_word会将“清华大学”分为“清华大学”，“清华”和“大学”，按需选其中之一就可以了。

修改默认分词方法(这里修改school_index索引的默认分词为：ik_max_word)：

PUT /school_index
{
    "settings" : {
        "index" : {
            "analysis.analyzer.default.type": "ik_max_word"
        }
    }
}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

攻城狮阿楠

关注关注

5
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

ES 分词器

tian830937的专栏

01-28

2608

顾名思义，文本分析就是把全文本转换成一系列单词（term/token）的过程，也叫分词。在 ES 中，Analysis是通过分词器（Analyzer）来实现的，可使用 ES 内置的分析器或者按需定制化分析器。举一个分词简单的例子：比如你输入 Mastering Elasticsearch，会自动帮你分成两个单词，一个是 mastering，另一个是 elasticsearch，可以看出单词也被转化成了小写的。

【HBZ分享】ES中的Reindex重建索引

a645293829的博客

08-09

1432

ES中的Reindex重建索引

2 条评论您还未登录，请先登录后发表或查看评论

2 条评论

月光灯 2022.08.25
这个命令没有，是哪个版本的es

dxyzzzzz 2021.04.13
有没有办法全局设置分词关系为AND 啊大佬？比如"operator":"AND"一个一个设置太麻烦了

Elasticsearch分词器详解

热门推荐

胡杰的专栏

10-29

3万+

ElasticSearch是一个基于Lucene构建的开源，分布式，RESTful搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。支持通过HTTP使用JSON进行数据索引。官方站点：http://www.elasticsearch.com/ 中文站点：http://es-cn.medcl.net/ 1.安装必须先安装Java环

ES设置自定义分词器

qq_45586240的博客

06-07

1万+

Es提供了很多的分词方式，其中大家最常用的分词器应该是： ik_max_word（精细分词）ik_smart(简易分词)，我是es的初学者，工作中因为涉及到人名问题，领导提出想要把人名做同音词匹配处理（如：张三，张伞，张散），这三个人的名字的话都是zhangsan,这种情况，我们就需要用到拼音分词器。网上都有提供的，大家直接选择对应es版本的拼音分词器版本下载即可。直通车：拼音分词器链接。 1.下载成功之后呢，大家需要在Es的plugins文件夹下新建一个名字为pinyin的文件夹，然后把下载的拼音分词器的

ElasticSearch分词器，包括默认分词器、英文分词器、中文分词器

王者NO1

09-11

1176

2.执行安装命令：./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.8.2/elasticsearch-analysis-ik-6.8.2.zip。关键词“南京”可以在分词结果里找到，所以可以搜索到结果。当我们使用条件搜索的时候，也会提取查询单词的词干与分词结果匹配，所以搜索的时候只要有满足分词结果的词干就会有搜索结果。

创新实训（43）——ElasticSearch中默认分词器的设置

baidu_41871794的博客

06-26

1268

前言之前实现了句子的查询，并且将句子进行查询之前，已经分词并且去除了停用词，剩下的很多停用词都是可能与句子的意思之间相关的所以并没有被去掉，这样的句子放入ElasticSearch进行查询时，会被切分，然后查询结果中会有很多不必要出现的停用词，作为关键词出现，初步分数是分词器的问题。在使用 elasticsearch 进行搜索的时候，经常会发现一篇和搜索关键字完全不匹配的文章排在最前面。它可能就被 ik_max_word 分词后，刚好就有类似 “的” 这样的无意义词，导致造成一篇含有很多无意义词的文章得

Logstash设置ElasticSearch默认分词器

周天祥的博客

07-05

1万+

Logstash设置ElasticSearch默认分词器 ElasticSearch：7.2.0 Logstash：7.2.0 1.定义Logstash模板 2.Logstash配置文件 3.查看执行结果 4.测试对人工智能感兴趣的同学，可以点击以下链接：现在人工智能非常火爆，很多朋友都想学，但是一般的教程都是为博硕生准备的，太难看懂了。最近发现了一个非常适合小白入门的教程，不...

在Elasticsearch中中文分词器怎么设置？

借雨醉东风的博客

01-04

1627

创建自定义分词器在索引的映射中定义一个新的分词器，并指定分词器类型为custom。},"type": "ik_max_word" // 使用IK Analyzer的分词器应用自定义分词器将自定义分词器应用到具体的字段。通过这些步骤，你可以在Elasticsearch中设置中文分词器，以提高中文文本处理的准确性和效率。有意找工作的同学，请参考博主的原创：《面试官心得--面试前应该如何准备》，《面试官心得--面试时如何进行自我介绍》，《做好面试准备，迎接2024金三银四或关注博主免费专栏【

ElasticSearch Analyzer默认分词器、ik分词器、远程词典、停用词（五）

CodingAnHour

05-20

2187

一、名词解释 Analysis：文本分析是把全文本转换一系列单词（trem/token）的过程，也叫分词 Analysis是通过Analyzer来实现的可以使用es内置分析器，或按需定制化分析器除了在数据写入时转换词条，匹配query语句时也需要用相同的分析器对查询语句进行分析分词器时专门处理分词的组件，Analyzer又三部分组成 Character Filters（针对原始文本处理，例如去除HTML） Tokenizer：按照规则切分单词 Token Filter：将切分的单词进

Elasticsearch改变默认的分词器

酷米云计算

01-08

1197

ES默认的分词器为standard，想要改变这个，可以设置成自定义的analyzer. 例，想要改变成配置好的ik分词器，在config/elasticsearch.yml文件中添加如下配置即可： index.analysis.analyzer.default.type:ik 前提当然是你已经安装了ik分词。...

Elasticsearch(三)----Elasticsearch中默认的分词器

Apple_Andy的博客

11-15

2836

一.standard analyzer—标准的分词器处理英语语法的分词器。切分后的key_words：set, the, shape, to, semi, transparent, by, calling, set_trans, 5。这种分词器也是Elasticsearch中默认的分词器。切分过程中不会忽略停止词（如：the、a、an等）。会进行单词的大小写转换、过滤连接符（-）或括号等常见符号。二.simple analyzer — 简单分词器切分后的key_words：set, the, shap

ElasticSearch50：索引管理_快速上机动手实战修改分词器以及定制自己的分词器

一枚程序员的博客

01-08

1653

1.默认的分词器 standard standard tokenizer:以单词的边界进行切分 standard token filter:什么都不做 lowercase token filter:将所有字母转换成小写 stop token filter(默认被禁用)，移除停用词，比如a the it等等 2.修改分词器的设置例子：启用standard的基于english的

ES 分词器使用和配置

小P聊技术

03-06

4516

1 介绍主要介绍索引请求的基础API操作，使用postman进行请求，接口请求的前缀地址统一为elasticsearch 部署IP地址+端口号（例如 http://192.168.51.4:9200 。 2 内置分词器分词器介绍 Standard Analyzer 默认分词器，按词切分，小写处理 Simple Analyzer 按照非字母切分(符号被过滤), 小写处理 Stop Analyzer 小写处理，停用词过滤(the,a,is) Whitespace Analyze

ES入门十四：分词器

一只小星星

04-07

6532

除了使用内置的分词器外，我们还可以通过组合 Tokenizer、Filters、Character Filters 来自定义分词器。"char_filter": { # 自定义char_filter"mappings": ["& => and"] # 将 '&' 转换为 'and'},"filter": { # 自定义 filter"stopwords": ["an"] # 设置 "an" 为停用词},"analyzer": { # 自定义分词器为 custom_analyzer。

es中文分词

bjgaocp的博客

09-15

400

官网 https://github.com/medcl/elasticsearch-analysis-ik 安装中文分词(如果是集群,每台ES节点都必须安装该插件) /usr/share/elasticsearch/bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.6.0/elasticsearch-analysis-ik-6.6.0.zip 注:e

Elasticsearch 进阶查询：分词器（Analyzer）与搜索优化

weixin_39899039的博客

02-11

1564

在 Elasticsearch 中，分词器（Analyzer）是文本处理的核心组件，负责将原始文本转换为可搜索的词项（tokens）。字符过滤器（Character Filters）：对原始文本进行预处理，如去除 HTML 标签、转换字符等。分词器（Tokenizer）：将文本按规则分割成词项，是分词器的核心部分。词项过滤器（Token Filters）：对分词后的词项进行进一步处理，如小写转换、去除停用词、提取词干等。

Elasticsearch连续剧之分词器

狮子也疯狂的博客

01-16

1万+

ES文档的数据拆分成一个个有完整含义的关键词，并将关键词与文档对应，这样就可以通过关键词查询文档。要想正确地分词，需要选择合适的分词器。现在咱们来探索一下分词器的真实面目!前面两种分词器，各有优点，但是他们的功能确实不够完备，比如使用ik分词器可以对中文进行分词，但是却不能对拼音分词；所以在现实开发中，我们一般使用自定义分词器进行分词，这样既可以对文字分词，也可以对拼音分词，现在咱们来研究一下如何写一个ik+pinyin分词器。

Logstash设置ElasticSearch默认分词器为keyword

03-13

<think>嗯，用户想要在Logstash中配置Elasticsearch索引，让默认分词器使用keyword类型。首先，我需要回忆一下Elasticsearch的默认分词器是什么。对了，默认是standard分词器，会把文本按空格等分成词汇，但用户希望整个字段作为整体处理，比如不分词，直接作为keyword。那Logstash如何配置索引设置呢？记得Logstash在同步数据时会自动创建索引，但默认情况下可能不会使用自定义的分词器。所以用户需要修改Logstash的配置，使其在创建索引时指定默认分词器为keyword。这时候可能需要用Logstash的模板功能。模板可以在索引创建时应用特定的设置和映射。比如，在模板中定义mappings，将字段的默认分词器设为keyword。但具体步骤是怎样的呢？根据引用中的内容，引用3提到有两种方式：手动创建索引，或者使用Logstash的自定义模板。用户希望自动配置，所以应该用Logstash的自定义模板方法。需要在Logstash的配置文件中添加template部分，指定索引的模式，并定义mappings中的dynamic_templates，将字符串字段的默认类型设为keyword。不过要注意，Elasticsearch中的text类型通常会有一个keyword子字段，但用户可能希望所有字符串字段默认都是keyword类型，这样就不会被分词。所以需要在模板中设置dynamic_templates，匹配所有字符串，将其映射为keyword类型。另外，还要确保在模板中指定了索引的settings，可能不需要更改分词器，因为keyword类型本身不需要分词。但需要确认索引的默认分析器是否影响，不过如果是字段类型设为keyword，分词器设置可能不是必须的。然后，用户需要将Logstash的配置文件（比如logstash.conf）中的output部分添加template和template_name等参数，指向自定义的模板文件。模板文件需要包含正确的JSON结构，定义索引的mappings，覆盖所有字符串字段为keyword。可能还需要测试一下配置是否正确，比如通过发送数据后检查索引的mapping，确认字段类型是否是keyword，以及是否被正确分析。比如使用_analyze API来测试，如引用4中的例子，确保字段没有被分词。总结步骤应该是：创建自定义模板文件，配置Logstash使用该模板，并在模板中定义dynamic_templates将所有字符串字段设为keyword类型。然后重启Logstash，让新配置生效，之后创建的索引就会应用这个模板，所有字符串字段默认使用keyword类型，不分词。</think>### 分步解决方案 1. **创建自定义索引模板** 在Logstash配置文件中定义模板，覆盖字符串字段的默认分词行为： ```ruby output { elasticsearch { hosts => ["localhost:9200"] index => "your_index_name" template => "/path/to/custom_template.json" # 自定义模板路径 template_name => "custom_template" # 模板名称 template_overwrite => true # 覆盖同名模板 } } ``` 2. **配置模板文件`custom_template.json`** 在模板中设置`dynamic_templates`，强制所有字符串类型字段默认使用`keyword`类型： ```json { "index_patterns": ["your_index_pattern*"], // 匹配的索引名称模式 "settings": { "index": { "analysis": { ... } // 可选，若无需特殊分词器可不配置 } }, "mappings": { "dynamic_templates": [ { "strings_as_keywords": { "match_mapping_type": "string", "mapping": { "type": "keyword" // 将字符串字段设为keyword类型 } } } ] } } ``` 3. **验证配置效果** 通过以下步骤检查字段是否应用`keyword`类型： ```bash # 查看索引mapping GET your_index_name/_mapping # 测试分词效果（应返回未分词的原始内容） POST your_index_name/_analyze { "field": "your_field", "text": "example-text" } ``` ### 关键概念说明 - **`keyword`类型**：字段值作为整体处理，不进行分词，适合精确匹配[^1]。 - **动态模板**：根据字段数据类型或名称自动匹配映射规则[^3]。