pkuseg使用方法

使用pkuseg进行中文分词与词性标注
该博客介绍了如何使用pkuseg库进行中文分词,包括默认配置分词、细领域分词、词性标注以及自定义词典的使用。通过示例代码展示了对单个句子和文件的处理,同时也提供了用户词典的两种加载方式:从文件和列表中加载。

pkuseg使用方法

  1. 使用默认配置进行分词(如果用户无法确定分词领域,推荐使用默认模型分词)
import pkuseg

seg = pkuseg.pkuseg()           # 以默认配置加载模型
text = seg.cut('我爱北京天安门')  # 进行分词
print(text)
  1. 细领域分词(如果用户明确分词领域,推荐使用细领域模型分词)
import pkuseg

seg = pkuseg.pkuseg(model_name='medicine')  # 程序会自动下载所对应的细领域模型
text = seg.cut('我爱北京天安门')              # 进行分词
print(text)
  1. 分词同时进行词性标注,各词性标签的详细含义可参考 tags.txt
import pkuseg

seg = pkuseg.pkuseg(postag=True)  # 开启词性标注功能
text = seg.cut('我爱北京天安门')    # 进行分词和词性标注
print(text)
  1. 对文件分词
import pkuseg

# 对input.txt的文件分词输出到output.txt中
# 开20个进程
pkuseg.test('input.txt', 'output.txt', nthread=20) 
  1. 额外使用用户自定义词典
5.1 使用文件添加用户词典
import pkuseg

seg = pkuseg.pkuseg(user_dict='my_dict.txt')  # 给定用户词典为当前目录下的"my_dict.txt"
text = seg.cut('我爱北京天安门')                # 进行分词
print(text)
# my_dict.txt的文件格式
# 每行一个词语,后面可以添加该词语的词性,词语与单词之间使用Tab键分割
爱北京	v
太阳升 
我	nr
5.2 使用列表也可以加载用户词典
import pkuseg

lexicon = [('爱北京', 'v'),'太阳升',('我','nr')]  
# 列表每个元素为一个词,若词语需要添加词性,则需要添加一个由词语和词性组成的元组('词语','词性')
seg = pkuseg.pkuseg(user_dict='my_dict.txt')  # 给定用户词典为当前目录下的"my_dict.txt"
text = seg.cut('我爱北京天安门')                # 进行分词
print(text)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值