Lucene开发的Ik分词器使用
至此,我们搞明白了,文档,域,term,索引,他们的关系,以及能使用lukeall查看索引。那么恭喜你,lucene开发已经入门。但是离工作使用还是远远不够,下面继续介绍,继续使用需求场景一进行推动:
我们还是面临一个问题:
如何通过“全文” 搜到我们想要的“全文检索.txt”文档?
我们通过lukeall查看索引,找到了原因。那就是没有正确的分词,是因为我们在代码中使用的是官方推荐的标准分词器,而这个分词器,是老外的,不能对中文进行分词,所以我们要使用中文分词器。而现在lucene的中文分词器:CJK词器,smartChinese分词器。
CJK分词器:是二分法:举例:我爱写代码:分成:我爱,爱写,写代,代码。
smartChinese:扩展性不太好,
市场用的有:庖丁解牛,mmseg4j。但是这两个作者多年没有更新了。这里主要介绍IK 分词器。
这里仅仅介绍IK分词器的使用:
IK分词器资料包:
文档,配置文件,jar包,手册,许可证,注意事项,停用词。
使用:
1:ar包导入工程,
2:配置文件导入工程src下
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd