北大的Python中文分词工具包pkuseg，准确度远超国内Jieba、THULAC

最新推荐文章于 2025-07-10 21:00:00 发布

Shaun_X

最新推荐文章于 2025-07-10 21:00:00 发布

阅读量2.1k

点赞数

分类专栏： Django 文章标签： python 高级应用 Django 分词

Django 专栏收录该内容

32 篇文章

订阅专栏

本文对比分析了jieba、THULAC与pkuseg等分词工具在国内新闻、混合文本和网络文本数据集上的性能。通过一致的训练与测试设置确保了比较的公平性，并提供了各工具包默认模型的表现。

各类分词工具包的性能对比

我们选择jieba、THULAC等国内代表分词工具包与pkuseg做性能比较。

考虑到jieba分词和THULAC工具包等并没有提供细领域的预训练模型，为了便于比较，我们重新使用它们提供的训练接口在细领域的数据集上进行训练，用训练得到的模型进行中文分词。

我们选择Linux作为测试环境，在新闻数据(MSRA)、混合型文本(CTB8)、网络文本(WEIBO)数据上对不同工具包进行了准确率测试。我们使用了第二届国际汉语分词评测比赛提供的分词评价脚本。其中MSRA与WEIBO使用标准训练集测试集划分，CTB8采用随机划分。对于不同的分词工具包，训练测试数据的划分都是一致的；即所有的分词工具包都在相同的训练集上训练，在相同的测试集上测试。对于所有数据集，pkuseg使用了不使用词典的训练和测试接口。以下是pkuseg训练和测试代码示例:

pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models')
pkuseg.test('msr_test.raw', 'output.txt', user_dict=None)

细领域训练及测试结果
以下是在不同数据集上的对比结果：
在这里插入图片描述
默认模型在不同领域的测试效果
考虑到很多用户在尝试分词工具的时候，大多数时候会使用工具包自带模型测试。为了直接对比“初始”性能，我们也比较了各个工具包的默认模型在不同领域的测试效果。请注意，这样的比较只是为了说明默认情况下的效果，并不一定是公平的。
在这里插入图片描述
其中，All Average显示的是在所有测试集上F-score的平均。