清华THULAC分词软件python版使用

最新推荐文章于 2025-06-05 16:01:08 发布

accumulate_zhang

最新推荐文章于 2025-06-05 16:01:08 发布

阅读量1.6w

点赞数 3

CC 4.0 BY-SA版权

分类专栏：机器学习 word2vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/accumulate_zhang/article/details/64540339

机器学习同时被 2 个专栏收录

24 篇文章

订阅专栏

7 篇文章

订阅专栏

本文对比了THULAC与jieba分词工具的使用体验与效果。介绍了THULAC的安装配置过程，并通过示例展示了两种工具在相同句子上的分词差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在使用结巴分词时候感觉在实验时候不太准确，所以试试其他的分词软件。大概去年五月份接触清华这个分词软件，不过当时没学过python，其他语言也用的不好，所以对如何编译和安装它显得十分笨重，所以今天再次去倒腾这些，发现编译安装挺简单，这说明我比以前有进步啊！哈哈，还是多学点东西，多自己倒腾，这样好好很多。

具体安装编译看 http://thulac.thunlp.org/，上面有步骤，下载相应的源码以及模型就可以。

说一下注意的事情，包的位置要放对，另外测试的时候建议在IDE里面测试，不要在cmd里面测试，我在cmd里面测试的时候，如果使用上面网页中的实例代码1的话就会报错，但是使用实例代码2就可以加载。

具体的参数可以看http://thulac.thunlp.org/#jiekou。

实例代码1：

实例代码2：

所以建议大家还是使用第二个实例进行测试，进一步的文件文本的分词明天继续搞。

下面找一个句子和jieba分词比较一下。

#coding=utf-8

import thulac

import time

import jieba

test='我们还提供更复杂、完善和精确的分词和词性标注联合模型Model_3和分词词表。该模型是由多语料联合训练训练得到（语料包括来自多文体的标注文本和人民日报标注文本等）'

a=jieba.cut('在北京大学生活区喝进口红酒')

end2=time.time()

print ' '.join(a)

thu1=thulac.thulac(seg_only=True)

text = thu1.cut('在北京大学生活区喝进口红酒', text=True)

end1=time.time()

print text

结果如下：

上面的是结巴分词结果，下面的是THULAC分词结果，结巴红酒分出来了，......

换句话试试......

工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作

例子来源于知乎 https://www.zhihu.com/question/19578687 @ Fooying

表示已跪

下面看一下分词结果

感觉还是结巴好一点，怎么突然感觉有点失望......

又用了一下直接对文件进行分词，得到分词后的output文件，这个用起来比较方便。

其他功能明天研究......

评论 12

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。