Elasticsearch——IK分词器自定义词库

本文介绍了如何在Elasticsearch中利用IK分词器解决特定业务需求。当通用词汇无法满足搜索条件时,创建自定义词库(mydic.dic)并更新IKAnalyzer.cfg.xml配置文件引入新词库。经过重启Elasticsearch,通过测试验证自定义词库已生效,从而改善了搜索结果的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、业务场景

       Elasticsearch是一个基于Lucene的搜索服务器,其引入IK分词器后,可以对中文进行分词。IK分词器分词的原理是在源文件中收集了很多词汇,仅在其中一个主要词汇文件main.dic文件中就有27W的词汇量。但是有的时候仅用分词器本身提供的通用词汇无法满足自己的项目特定的业务需求,比如说我要以“最长的电影”这一歌名作为搜索条件,所得到的结果如下图所示。

 

二、新建词库文件

        很显然,这并不是我们要的结果。而IK分词器本身也提供了自定义词库,对于开发者来说也是简单实用的。首先IK分词器是在elasticsearch安装目录的puligins文件夹中。进入plugins-->ik-->config目录,新建一个mydic.dic的文件,并在这一个文件中写入词汇,如下图所示。

三、引入自定义词库

        引入自定义词库,需要进入plugins-->ik-->config目录,修改IKAnalyzer.cfg.xml文件的内容。如下图所示,在<entry key="ext_dic>标签中写入自定义词库的路径。如下图所示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值