THULAC清华大学中文分词分析工具使用方法

最新推荐文章于 2025-06-12 10:59:54 发布

普通且自信66

最新推荐文章于 2025-06-12 10:59:54 发布

阅读量8.7k

点赞数

分类专栏：分词

分词专栏收录该内容

3 篇文章

订阅专栏

本文介绍THULAC，一款由清华大学研发的高效中文分词与词性标注工具。文章提供Python接口的详细使用示例，包括命令行运行方式及模型下载方法，适合自然语言处理领域的开发者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

THULAC清华大学中文分词分析工具使用方法

源码地址下载

python版接口使用示例

代码示例1
import thulac	
thu1 = thulac.thulac()  #默认模式
text = thu1.cut("我爱北京天安门", text=True)  #进行一句话分词
print(text)

代码示例2
thu1 = thulac.thulac(seg_only=True)  #只进行分词，不进行词性标注
thu1.cut_f("input.txt", "output.txt")  #对input.txt文件内容进行分词，输出到output.txt

接口参数

thulac(user_dict=None, model_path=None, T2S=False, seg_only=False, filt=False, deli='_')初始化程序，进行自定义设置

user_dict 设置用户词典，用户词典中的词会被打上uw标签。词典中每一个词一行，UTF8编码
T2S 默认False, 是否将句子从繁体转化为简体
seg_only 默认False, 时候只进行分词，不进行词性标注
filt 默认False, 是否使用过滤器去除一些没有意义的词语，例如“可以”。
model_path 设置模型文件所在文件夹，默认为models/
deli 默认为‘_’, 设置词与词性之间的分隔符

rm_space           默认为False, 是否去掉原文本中的空格后再进行分词 

cut(文本, text=False) 对一句话进行分词

text 				默认为False, 是否返回文本，不返回文本则返回一个二维数组([[word,tag]..]),seg_only模式下tag为空字符。

cut_f(输入文件, 输出文件) 对文件进行分词

run() 命令行交互式分词(屏幕输入、屏幕输出)

命令行运行（限pip安装使用）

直接调用

python -m thulac input.txt output.txt

#从input.txt读入，并将分词和词性标注结果输出到ouptut.txt中

#如果只需要分词功能，可在增加参数"seg_only" 

python -m thulac input.txt output.txt seg_only