THULAC清华大学中文分词分析工具使用方法
python版接口使用示例
代码示例1
import thulac
thu1 = thulac.thulac() #默认模式
text = thu1.cut("我爱北京天安门", text=True) #进行一句话分词
print(text)
代码示例2
thu1 = thulac.thulac(seg_only=True) #只进行分词,不进行词性标注
thu1.cut_f("input.txt", "output.txt") #对input.txt文件内容进行分词,输出到output.txt
接口参数
thulac(user_dict=None, model_path=None, T2S=False, seg_only=False, filt=False, deli='_')初始化程序,进行自定义设置
- user_dict 设置用户词典,用户词典中的词会被打上uw标签。词典中每一个词一行,UTF8编码
- T2S 默认False, 是否将句子从繁体转化为简体
- seg_only 默认False, 时候只进行分词,不进行词性标注
- filt 默认False, 是否使用过滤器去除一些没有意义的词语,例如“可以”。
- model_path 设置模型文件所在文件夹,默认为models/
- deli 默认为‘_’, 设置词与词性之间的分隔符
rm_space 默认为False, 是否去掉原文本中的空格后再进行分词
cut(文本, text=False) 对一句话进行分词
text 默认为False, 是否返回文本,不返回文本则返回一个二维数组([[word,tag]..]),seg_only模式下tag为空字符。
cut_f(输入文件, 输出文件) 对文件进行分词
run() 命令行交互式分词(屏幕输入、屏幕输出)
命令行运行(限pip安装使用)
直接调用
python -m thulac input.txt output.txt
#从input.txt读入,并将分词和词性标注结果输出到ouptut.txt中
#如果只需要分词功能,可在增加参数"seg_only"
python -m thulac input.txt output.txt seg_only
获取模型
THULAC需要分词和词性标注模型的支持,获取下载好的模型用户可以登录thulac.thunlp.org网站填写个人信息进行下载,并放到THULAC的根目录即可,或者使用参数model_path指定模型的位置。