Eslaticsearch整合IKAnalyzer分词器

本文档介绍了如何在Elasticsearch中整合IKAnalyzer分词器,包括安装分词器、重启ES、配置IKAnalyzer.cfg.xml文件以及创建索引时指定分词器的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里使用的是elasticsearch-analysis-ik-5.5.2.zip的版本

安装IK分词器

解压,修改文件夹名称
/home/resources/elasticsearch-analysis-ik-5.5.2.zip
unzip解压后,将解压内容放到elasticsearch根目录的plugins
将解压的文件夹名称修改为analysis-ik
重启es

测试访问

http://192.168.1.55:9200/index01/_analyze?analyzer=ik_max_word&text="中华人民共和国"
index01:是一件提前创建好的索引
_analyze:测试分词
analyzer:使用的分词器名称 可以用standard也可以使用ik_max_word,这里用刚刚解压好的IK分词器
text:测试的文本

配置文件 elasticsearch-5.5.2/plugins/analysis-ik/config

修改目录下面的IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 -->
        <entry key="ext_dict">ext.dic</entry>
         <!--用户可以在这里配置自己的扩展停止词字典-->
        <entry key="ext_stopwords">stopword.dic</entry>
        <!--用户可以在这里配置远程扩展字典 -->
        <!-- <entry key="remote_ext_dict">words_location</entry> -->
        <!--用户可以在这里配置远程扩展停止词字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>
扩展字典:ext.dic
停用字典:stopword.dic
需要在IKAnalyzer.cfg.xml文件,在同文件中生成xml中指定的扩展词典和停用词典,插件analysis-ik根目录中

ext.dic和stopword.dic为通过IKAnalyzer.cfg.xml文件指定的字典名称,可以自定义名字,在同目录下创建字典
,可以参考自带的一些字典做分词。例如目录下的main.dic

一一列举
一一对应
一一道来
一丁
一丁不识
一丁点
一丁点儿
一七八不
一丈
一上
一上去
一上台
一上场
一上来
一下
一下下
一下儿
一下去
一下台
一下场
一下子
一下来
一不做二不休

创建索引的时候指定分词器为ik_max_word即可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值