Lucene应用实战(三)——分词器的使用

程序员资料站

于 2022-01-24 13:51:28 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏： Java相关文章标签： lucene 搜索引擎 apache

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yongbutingxide/article/details/122666092

本文介绍了Lucene中分词器的重要性，并详细讲解了StandardAnalyzer和CJKAnalyzer的分词原理，以及如何使用IKAnalyzer进行中文分词。重点探讨了扩展词库和停用词在分词过程中的应用，以提升索引质量和搜索效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

前面几篇文章我们对Lucene中索引的创建等相关知识进行了初步的学习。

接下来思考一个问题，我们创建的索引，是不是符合我们搜索要求的索引呢？

平日里我们搜索东西的时候，输入某个关键词，有时候能搜出来，有时候搜别的关键词就搜不出来。

用户输入的关键词和我们存储的索引之间会有一个匹配的过程，如果能匹配的上，那么就返回相应结果。

索引创建是很关键的一环，而分词又是索引创建的核心，直接影响到索引的质量。

接下来我们来从分词入手，详细拆解索引创建过程中分词的流程。

分词的相关概念

分词器：采集到的数据会存储到Document对象的Field域中，分词器就是将Document中Field的value
值切分成一个一个的词。
停用词：停用词是为节省存储空间和提高搜索效率，搜索程序在索引页面或处理搜索请求时会自动忽略某
些字或词，这些字或词即被称为Stop Words(停用词)。比如语气助词、副词、介词、连接词等，通常自
身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，如常见的“的”、“在”、“是”、“啊” 、
a、an、the 等。
扩展词：扩展词就是分词器默认不会切出的词但我们希望分词器切出这样的词。

过滤：包括去除标点符号过滤、去除停用词过滤（的、是、a、an、the等）、大写转小写、词的形还原
（复数形式转成单数形参、过去式转成现在式。。。）等。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序员资料站 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。