ik分词器插件
es在7.3版本已经支持中文分词,由于中文分词只能支持到单个字进行分词,不够灵活与适配我们平常使用习惯,所以有很多对应中文分词出现,最近使用的是ik分词器,就说说它吧。
ik分词器安装
安装可以百度下有很多教程,需要注意的是ik分词器的版本要跟es版本对应上,避免出现不必要的兼容问题。
ik分词模式
ik_max_word: 将文本拆分成最细粒度的词语或者字
GET /test_analysis/_analyze
{
"text": "是否分词",
"analyzer": "ik_max_word"
}
结果
{
"tokens" : [
{
"token" : "是否",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "是",
"start_offset" : 0,
"end_offset" : 1,
"type" : "CN_WORD",
"position" : 1
},
{
"token" : "否",
"start_offset" : 1,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 2
},
{
"token" : "分词",
"start_offset" : 2,
"end_offset" : 4,
"type" :