- ES支持的分词器有很多,这里我使用的是常用的IK分词器
1. 分词模式一:ik_max_word
会将文本最细力度的拆分
先在kibana测试一波输入下面的请求:
POST _analyze
{
"analyzer": "ik_max_word",
"text": "南京市长江大桥"
}
结果:
{
"tokens" : [
{
"token" : "南京市",
"start_offset" : 0,
"end_offset" : 3,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "南京",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 1
},
{
"token" : "市长",
"start_offset" : 2,
"end_offset" : 4,
"type" : "CN_WORD",
"position" : 2
},
{
"token" : "市",
"start_offset" : 2,
"end_offset" : 3,
"type" : "CN_CH
本文介绍了ElasticSearch中IK分词器的使用,包括ik_max_word和ik_smart两种分词模式。ik_max_word模式进行最细粒度的拆分,而ik_smart模式更适合处理人名等特定词汇。还详细讲解了如何添加扩展词典和停用词典,以优化分词效果,并给出了配置和测试步骤。
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



