清华THULAC分词软件python版使用

本文对比了THULAC与jieba分词工具的使用体验与效果。介绍了THULAC的安装配置过程,并通过示例展示了两种工具在相同句子上的分词差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在使用结巴分词时候感觉在实验时候不太准确,所以试试其他的分词软件。大概去年五月份接触清华这个分词软件,不过当时没学过python,其他语言也用的不好,所以对如何编译和安装它显得十分笨重,所以今天再次去倒腾这些,发现编译安装挺简单,这说明我比以前有进步啊!哈哈,还是多学点东西,多自己倒腾,这样好好很多。
     具体安装编译看 http://thulac.thunlp.org/,上面有步骤,下载相应的源码以及模型就可以。
     说一下注意的事情,包的位置要放对,另外测试的时候建议在IDE里面测试,不要在cmd里面测试,我在cmd里面测试的时候,如果使用上面网页中的实例代码1的话就会报错,但是使用实例代码2就可以加载。

具体的参数可以看http://thulac.thunlp.org/#jiekou。

实例代码1:
               

实例代码2:
 

所以建议大家还是使用第二个实例进行测试,进一步的文件文本的分词明天继续搞。

     下面找一个句子和jieba分词比较一下。
#coding=utf-8
import thulac
import time
import jieba
test='我们还提供更复杂、完善和精确的分词和词性标注联合模型Model_3和分词词表。该模型是由多语料联合训练训练得到(语料包括来自多文体的标注文本和人民日报标注文本等)'

a=jieba.cut('在北京大学生活区喝进口红酒')
end2=time.time()
print ' '.join(a)

thu1=thulac.thulac(seg_only=True)
text = thu1.cut('在北京大学生活区喝进口红酒', text=True)
end1=time.time()
print text


结果如下:
上面的是结巴分词结果,下面的是THULAC分词结果,结巴红酒分出来了,......


换句话试试......
工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作
例子来源于知乎 https://www.zhihu.com/question/19578687   @ Fooying
表示已跪
下面看一下分词结果


感觉还是结巴好一点,怎么突然感觉有点失望......

又用了一下直接对文件进行分词,得到分词后的output文件,这个用起来比较方便。

其他功能明天研究......
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值