配置IKAnalyzer扩展词库

最新推荐文章于 2025-07-13 09:54:16 发布

原创最新推荐文章于 2025-07-13 09:54:16 发布 · 2.8k 阅读

3 ·

CC 4.0 BY-SA版权

IK分词器专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了如何在Elasticsearch中配置IKAnalyzer的扩展字典和停止词字典，通过自定义my.dic文件实现特定词汇不分词，确保如'王者荣耀'等专有名词的完整性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在Elasticsearch的安装目录下找到文件IKAnalyzer.cfg.xml，内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry>
	 <!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">custom/ext_stopword.dic</entry>
	<!--用户可以在这里配置远程扩展字典 -->
	<!-- <entry key="remote_ext_dict">words_location</entry> -->
	<!--用户可以在这里配置远程扩展停止词字典-->
	<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

<entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry>

这行中定义了扩展分词,即哪些词汇不拆分，标签中配置的是文件路径，默认在custom文件夹下，自定义扩展分词的时候首先在custom文件夹下新增一个文件my.dic，将文件的路径添加到以上标签如下：

<entry key="ext_dict">custom/my.dic;custom/mydict.dic;custom/single_word_low_freq.dic</entry>

注意事项：

1.定义的my.dic文件必须使用无BOM的UTF-8编码保存的文件。如果不确定什么是无BOM的UTF-8编码，最简单的方式就是用Notepad++编辑器打开，Encoding->选择 Encoding in UTF-8 without BOM，然后保存。若Notepad++没有该编码，则如下操作即可：