分词并行结巴分词 0.27 发布，Python 中文分词组件

最新推荐文章于 2025-08-17 12:15:32 发布

原创最新推荐文章于 2025-08-17 12:15:32 发布 · 165 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文介绍了一种在多台计算机上显著提高分词速度的并行分词技术，详细阐述了其原理、使用方法及试验结果，并分享了程序员的笑话语录。

题记：写这篇博客要主是加深自己对分词并行的认识和总结实现算法时的一些验经和训教，如果有错误请指出，万分感谢。

本次release的要主更新：

1) 新增并行分词能功，可以在多核算计机上明显高提分词速度

2) 正修了“的”频字高过起引的bug；正修了对小数点和下划线的处置

3) 正修了python2.6存在的兼容性问题

并行分词绍介：

每日一道理
因为自信，在呀呀学语时，我靠着纤嫩的双腿，迈出人生的第一步；因为自信，我一次次将第一名的奖状高高举起；因为自信，我毫不吝惜地剪掉飘逸的长发，在运动场上展现风采……感谢自信，它给了我一双翅膀，让我在电闪雷鸣中去飞翔，在风雨中去搏击人生！

- 理原：将目标文本按行分开后，把各行文本分配到多个python程进并行分词，然后归并结果，从而得获分词速度的可观晋升
- 基于python自带的multiprocessing块模，现在暂不持支windows
- 用法：
  - jieba.enable_parallel(4) # 开启并行分词模式，参数为并行程进数
  - jieba.disable_parallel() # 关闭并行分词模式
- 例子： https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py
- 试验结果：在4核3.4GHz Linux呆板上，对金庸选集停止分词，得获了1MB/s的速度，是单程进版的3.3倍。

文章结束给大家分享下程序员的一些笑话语录：看新闻说中国输入法全球第一！领先了又如何？西方文字根本不需要输入法。一点可比性都没有。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。