全文检索lucene中文分词的一些总结

最新推荐文章于 2025-04-04 20:41:35 发布

weixin_34062329

最新推荐文章于 2025-04-04 20:41:35 发布

阅读量58

点赞数

CC 4.0 BY-SA版权

原文链接：http://blog.51cto.com/jinyabo/1173800

本文详细介绍了中文分词的概念、实现方式以及常见的机械分词方法，包括正向最大匹配法、逆向最大匹配法和最少切分法。重点讨论了如何在实际需求下实现更高效、准确的中文分词算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

全文检索几乎是所有内容管理系统软件（CMS）必备的功能，在对公司的CMS产品的开发维护过程中，全文检索始终是客户重点关注的模块，为满足客户各式各样越来越高的要求，对全文检索曾做过一段时间相对深入的研究，尤其是对分词机制，趁如今换工作比较空闲之际做个简单总结。

1、 什么是中文分词

学过英文的都知道，英文是以单词为单位的，单词与单词之间以空格或者逗号句号隔开。而中文则以字为单位，字又组成词，字和词再组成句子。所以对于英文，我们可以简单以空格判断某个字符串是否为一个单词，比如I love China，love和 China很容易被程序区分开来；但中文“我爱中国”就不一样了，电脑不知道“中国”是一个词语还是“爱中”是一个词语。把中文的句子切分成有意义的词，就是中文分词，也称切词。我爱中国，分词的结果是：我爱中国。

目前中文分词还是一个难题———对于需要上下文区别的词以及新词（人名、地名等）很难完美的区分。国际上将同样存在分词问题的韩国、日本和中国并称为CJK(Chinese Japanese Korean)，对于CJK这个代称可能包含其他问题，分词只是其中之一。

2、 中文分词的实现

Lucene自带了几个分词器WhitespaceAnalyzer，SimpleAnalyzer，StopAnalyzer，StandardAnalyzer，ChineseAnalyzer，CJKAnalyzer等。前面三个只适用于英文分词，StandardAnalyzer对可最简单地实现中文分词，即二分法，每个字都作为一个词，这样分出来虽然全面，但有很多缺点，比如，索引文件过大，检索时速度慢等。ChineseAnalyzer是按字分的,与StandardAnalyzer对中文的分词没有大的区别。 CJKAnalyzer是按两字切分的, 比较武断,并且会产生垃圾Token，影响索引大小。以上分词器过于简单，无法满足现实的需求，所以我们需要实现自己的分词算法。

现有的中文分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。后面两者只是听说过，没深入接触过，这里着重讲下基于字符串匹配的分词方法。

基于字符串匹配的分词方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：

1）正向最大匹配法（由左到右的方向）；

2）逆向最大匹配法（由右到左的方向）；

3）最少切分（使每一句中切出的词数最小）。

转载于:https://blog.51cto.com/jinyabo/1173800