Lucene的学习第八篇——Lucene开发的Ik分词器使用

本文介绍了Lucene中Ik分词器的使用,包括分词器的作用、常见问题以及如何配置和集成到项目中。通过Ik分词器解决了中文分词的问题,使全文检索更准确。此外,还提到了扩展词和停用词配置文件的用途,以优化搜索效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Lucene开发的Ik分词器使用
至此,我们搞明白了,文档,域,term,索引,他们的关系,以及能使用lukeall查看索引。那么恭喜你,lucene开发已经入门。但是离工作使用还是远远不够,下面继续介绍,继续使用需求场景一进行推动:
我们还是面临一个问题:
如何通过“全文” 搜到我们想要的“全文检索.txt”文档?
我们通过lukeall查看索引,找到了原因。那就是没有正确的分词,是因为我们在代码中使用的是官方推荐的标准分词器,而这个分词器,是老外的,不能对中文进行分词,所以我们要使用中文分词器。而现在lucene的中文分词器:CJK词器,smartChinese分词器。
CJK分词器:是二分法:举例:我爱写代码:分成:我爱,爱写,写代,代码。
smartChinese:扩展性不太好,
市场用的有:庖丁解牛,mmseg4j。但是这两个作者多年没有更新了。这里主要介绍IK 分词器。
这里仅仅介绍IK分词器的使用:
这里写图片描述

IK分词器资料包:
文档,配置文件,jar包,手册,许可证,注意事项,停用词。
使用:
1:ar包导入工程,
2:配置文件导入工程src下

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值