IK 分词器,支持带空格的分词
背景
ES 用到 中文(IK) 分词;
IK分词器 词典是不支持空格的! 尝试在词典中 加入带空格的 关键词, 也不能正确分词。
思路
直接修改源码
步骤
-
下载代码,refer: elasticsearch-analysis-ik
-
idea 导入工程,切换到对应分支或者 tag(version 要求和 ES完全匹配)
org.wltea.analyzer.core.CharacterUtil 做如下修改:
org.wltea.analyzer.dic.Dictionary 做如下修改
确认 POM文件的版本与 ES匹配:
-
修改源码
mvn clean mvn compile mvn package
-
重新编译、安装、测试
4.1 ./elasticsearch-plugin install file:///${base_path}/target/releases/elasticsearch-analysis-ik-7.9.3.zip
4.2 配置 IKAnalyzer.cfg.xml, 配置带有空格的词典, 配置停用词
4.3 重启ES
4.4 测试