中文分词工具探析（二）：Jieba

浅唱书令

已于 2023-06-01 14:13:15 修改

阅读量255

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签：中文分词自然语言处理

于 2016-12-29 18:08:00 首次发布

本文链接：https://blog.youkuaiyun.com/keyboardlabourer/article/details/130980563

人工智能专栏收录该内容

51 篇文章 ¥29.90 ¥99.00

订阅专栏

本文深入探讨了jieba中文分词工具，重点解析了其采用的Unigram+HMM模型，包括分词模式、词典检索、DAG构造以及HMM未登录词识别。详细阐述了全模式、精确模式、搜索引擎模式的实现，并讨论了如何通过动态规划解决最大路径问题。

1. 前言

Jieba是由fxsjy大神开源的一款中文分词工具，一款属于工业界的分词工具——模型易用简单、代码清晰可读，推荐有志学习NLP或Python的读一下源码。与采用分词模型Bigram + HMM 的ICTCLAS 相类似，Jieba采用的是Unigram + HMM。Unigram假设每个词相互独立，则分词组合的联合概率：

\begin{equation}
P(c_1^n) = P(w_1^m) = \prod_i P(w_{i})
\label{eq:unigram}
\end{equation}

在Unigram分词后用HMM做未登录词识别，以修正分词结果。