IKAnalyzer添加用户自定字典


IKAnalyzer添加用户自定字典

1. 部署IKAnalyzer.cfg.xml

IKAnalyzer.cfg.xml部署在代码根目彔下(对亍web项目,通常是WEB-INF/classes目彔)同hibernate、log4j等配置文件相同。
classes于lib目录同级,但是这个目录是没有要自己手动创建

/home/eboss/jetty-solr/webapps/solr/WEB-INF/classes/IKAnalyzer.cfg.xml
/home/eboss/jetty-solr/webapps/solr/WEB-INF/classes/mydict.dict
/home/eboss/jetty-solr/webapps/solr/WEB-INF/classes/ext_stopword.dict


2. 词典文件的编辑与部署

分词器的词典文件格式是无BOM的UTF-8编码的中文文本文件,文件扩展名不限。词典中,每个中文词汇独立占一行,使用\r\n的DOS方式换行。(注,如果您不了解什么是无BOM的UTF-8格式, 请保证您的词典使用UTF-8存储,并在文件的头部添加一空行)。您可以参考分词器源码org.wltea.analyzer.dic包下的.dic文件。

词典文件应部署在Java的资源路径下,即ClassLoader能够加载的路径中。(推荐同IKAnalyzer.cfg.xml放在一起)

3. IKAnalyzer.cfg.xml文件的配置

    
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
    <comment>IK Analyzer 扩展配置</comment>
    <!--用户可以在这里配置自己的扩展字典 -->
    <entry key="ext_dict">mydict.dic; /com/mycompany/dic/mydict2.dic;</entry>
    <!--用户可以在这里配置自己的扩展停止词字典-->
    <entry key="ext_stopwords">ext_stopword.dic</entry>
</properties> 



以上配置来源IKAnalyzer中文分词器V2012_FF使用手册.pdf,IK的其他配置方法同样可参见此使用手册。

配置完成后或添加自定义分词后要重启solr才能生效
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值