开源分词框架分析

中文分词技术与开源框架解析

最新推荐文章于 2025-09-12 09:40:45 发布

原创

最新推荐文章于 2025-09-12 09:40:45 发布 · 6.9k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#框架 #算法 #lucene #搜索引擎 #dictionary #数据结构

本文探讨中文分词的重要性，介绍了正向最大匹配、反向最大匹配等算法，以及Tire树数据结构在分词中的应用。同时，分析了开源分词框架，如Paoding和IKAnalyzer，它们基于Lucene，支持多种分词模式，适用于搜索引擎和文本处理场景。

本文将带你一起了解搜索引擎神秘面纱中的一个重要部分---中文分词技术：主要讲述中文分词的实现原理和现今比较热门的几种搜索分词java版开源框架。
任何一个全文搜索引擎都必须要在对索引处理之前进行一项重要的数据预处理工作：分词。分词的作用在于让机器能够更加容易的"学会"人类语言，搜索引擎才能展示出我们真正想要找的东西。当然，如果仅仅只是针对搜索这个应用场景，对外文（英文，俄文）的分词工作似乎轻而易举，因为一段e文中每一个有意义的词语都是以空格或者符号隔开的，我们只需要根据空格就可以完成最基本的分词工作。但是中文（其实还有日文，韩文，或许你会想到CJK）就没有这么简单了，正如我现在写的一般，词间是没有空格的，加上中国汉字"博大精深"，一般的办法是解决不了中文分词的。
假如现在要你设计一个算法，实现中文分词，"二分法"似乎是最容易想到，却也是最不给力的一种算法，虽然简单，但是结果精确性却不高（大概的思路就是把"淘宝被拆了"分成"淘宝"，"宝被"，"被拆"，"拆了"，然后将这些词到词库里去筛选）。这种分词思想的优点在于简单容易实现，缺点是词库量大，而且二义性问题似乎是个老大难。比如"淘宝贝"最后被分成了"淘宝"和"贝"，但是正确的切分应该是"淘"和"宝贝";它和单字法一样，都需要基于"辞典"这个数据结构来完成分词工作。基于辞典的中文分词算法是北航教授梁南元最早提出来的，这种算法的思想后来衍生成了很多种算法：比如最少词数分词技术，即一句话应该分隔成词数最少个数的词语串，也就是我们经常提及的正向最大匹配算法fmm：这个算法的流程图如下所示：

当然，以上实现只是最简单的实现，因为L的大小是固定的，所以其精确性和二义性还存在很大的问题;我们还可以在此基础之上对算法进行改造处理，有兴趣的同学可以网上搜索相关的优化算法;
除此之外，还有反向最大匹配算法RMMS，它和正向最大匹配算法的唯一的区别在于它是从一个句子的结尾处开始扫描的;但是这两种算法都有一个比较严重的问题：就是在遇到二义性的情况下，分词结果可能不是十分精确（实践证明，逆向最大匹配分词出来的结果往往二义性的错误比正向匹配的少很多，但是依旧存在），所以为了减少因为岐义造成的不准确性，有些人就尝试使用两次扫描：即正向最大匹配和逆向最大匹配各一次，两次匹配出来的结果再做二次处理分析，我们称为双向匹配，并且收到了很好的效果，提高了分词的准确率，但是性能很明显要下降很多。顺便说一下，有相关SEO人员研究谷歌和百度的中文分词都采用的是正向最大匹配算法来实现分词的，只是百度在辞典上做了更多的文章（把辞典分为专业辞典和普通辞典），所以在分词上比谷歌做的稍微好一些，因为无法得到证实，所以只能姑且这般相信了。
说完了算法流程，再来介绍一个实现最大匹配算法的数据结构-Tire树：
如下两图显示，其实它就是一棵字典树，它用于存储大量的字符串以便支持快速模式匹配，所以是实现最大匹配算法的不二选择。它的特点是所有含有公共前缀的字符串将挂在书中同一个节点下，且

最低0.47元/天解锁文章