中文分词器分词效果评估对比

傅爽业Veleda

于 2025-04-15 19:00:58 发布

阅读量723

点赞数 23

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00204/article/details/147256204

中文分词是自然语言处理（NLP）领域的基础任务之一，其目的是将连续的文本分割成一个个有意义的词。不同的分词器在准确性、速度和适用场景上各有优劣。本文将对比分析当前流行的中文分词器的分词效果，以帮助用户选择最适合自己的分词工具。

本文介绍的中文分词器分词效果评估对比项目，旨在提供一个公平、统一的平台，对多种中文分词器进行性能评估。项目包含两个主要文件：test-test.txt为未分词的文本文件，standard-text.txt为人工分好词的参考文件。通过对比分词器的输出结果与参考文件，可以评估分词器的准确性。

项目采用了多种技术手段，包括最大匹配、最小匹配、双向匹配、N-gram模型、索引分词等，以适应不同的分词需求。评估过程中，项目会计算每个分词器的分词速度、行数完美率、行数错误率、字数完美率和字数错误率等指标。

中文分词器广泛应用于搜索引擎、文本挖掘、语音识别、机器翻译等领域。不同场景下，对分词器的速度和准确性要求不同。例如，在搜索引擎中，可能更注重分词速度；而在文本挖掘中，分词的准确性可能更为关键。

项目使用步骤如下：

Windows系统下，可以通过执行contrast.bat和evaluation.bat脚本来运行评估；Linux系统下，则需要先赋予脚本执行权限，然后执行脚本。

以下是部分分词器的评估结果：

word分词最大Ngram分值算法：
- 分词速度：370.9714 字符/毫秒
- 行数完美率：66.55%
- 行数错误率：33.44%
- 字数完美率：60.94%
- 字数错误率：39.05%
smartcn：
- 分词速度：611.1504 字符/毫秒
- 行数完美率：55.29%
- 行数错误率：44.7%
- 字数完美率：48.03%
- 字数错误率：51.96%
HanLP分词器标准分词：
- 分词速度：935.7724 字符/毫秒
- 行数完美率：58.31%
- 行数错误率：41.68%
- 字数完美率：50.43%
- 字数错误率：49.56%
Ansj BaseAnalysis 基本分词：
- 分词速度：1295.5205 字符/毫秒
- 行数完美率：55.36%
- 行数错误率：44.63%
- 字数完美率：48.18%
- 字数错误率：51.81%
word分词双向最大最小匹配算法：
- 分词速度：462.87158 字符/毫秒
- 行数完美率：53.06%
- 行数错误率：46.93%
- 字数完美率：43.07%
- 字数错误率：56.92%

...

评估结果显示，不同分词器在速度和准确性上各有千秋。用户应根据具体场景和需求，选择最合适的分词器。

以下是以两个句子为例，不同分词器的分词结果对比：

word分词器：
- 全切分算法：我爱楚离陌
- 双向最大最小匹配算法：我爱楚离陌
- 最大Ngram分值算法：我爱楚离陌
- 正向最大匹配算法：我爱楚离陌
- 双向最大匹配算法：我爱楚离陌
- 最少词数算法：我爱楚离陌
- 逆向最大匹配算法：我爱楚离陌
- 正向最小匹配算法：我爱楚离陌
- 双向最小匹配算法：我爱楚离陌
- 逆向最小匹配算法：我爱楚离陌
Stanford分词器：
- Stanford Chinese Treebank segmentation：我爱楚离陌
- Stanford Beijing University segmentation：我爱楚离陌
Ansj分词器：
- BaseAnalysis：我爱楚离陌
- IndexAnalysis：我爱楚离陌
- ToAnalysis：我爱楚离陌
- NlpAnalysis：我爱楚离陌
HanLP分词器：
- NLP分词：我爱楚离陌
- 标准分词：我爱楚离陌
- N-最短路径分词：我爱楚离陌
- 索引分词：我爱楚离陌
- 最短路径分词：我爱楚离陌
- 极速词典分词：我爱楚离陌

...

word分词器：
- 全切分算法：结合成分子
- 双向最大最小匹配算法：结合成分子
- 最大Ngram分值算法：结合成分子
- 正向最大匹配算法：结合成分子
- 双向最大匹配算法：结合成分子
- 最少词数算法：结合成分子
- 逆向最大匹配算法：结合成分子
- 正向最小匹配算法：结合成分子
- 双向最小匹配算法：结合成分子
- 逆向最小匹配算法：结合成分子
Stanford分词器：
- Stanford Chinese Treebank segmentation：结合成分子
- Stanford Beijing University segmentation：结合成分子
Ansj分词器：
- BaseAnalysis：结合成分子
- IndexAnalysis：结合成分子
- ToAnalysis：结合成分子
- NlpAnalysis：结合成分子
HanLP分词器：
- NLP分词：结合成分子
- 标准分词：结合成分子