IK 分词器空格支持

本文介绍了如何使IK分词器支持带空格的分词。针对IK分词器默认不支持空格的问题,通过直接修改源码,包括CharacterUtil和Dictionary类,然后重新编译、安装并配置ES,实现对带空格关键词的正确分词。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

IK 分词器,支持带空格的分词

背景

ES 用到 中文(IK) 分词;
IK分词器 词典是不支持空格的! 尝试在词典中 加入带空格的 关键词, 也不能正确分词。

思路

直接修改源码

步骤

  1. 下载代码,refer: elasticsearch-analysis-ik

  2. idea 导入工程,切换到对应分支或者 tag(version 要求和 ES完全匹配)
    org.wltea.analyzer.core.CharacterUtil 做如下修改:
    在这里插入图片描述
    org.wltea.analyzer.dic.Dictionary 做如下修改在这里插入图片描述
    确认 POM文件的版本与 ES匹配:
    在这里插入图片描述

  3. 修改源码

     mvn clean
     mvn compile
     mvn package
    
  4. 重新编译、安装、测试
    4.1 ./elasticsearch-plugin install file:///${base_path}/target/releases/elasticsearch-analysis-ik-7.9.3.zip
    4.2 配置 IKAnalyzer.cfg.xml, 配置带有空格的词典, 配置停用词
    4.3 重启ES
    4.4 测试

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值