结巴分词基础用法

本文介绍了jieba分词的基本用法,包括下载安装、分词模式、过滤短词、标注词性、自定义字典、并行计算等功能,并提供了实例演示。同时提到了jieba的词性表,帮助理解分词结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

结巴是现在中文分词比较好用的包,这里列出一些基本的用法,以后再慢慢补充  

  • 下载
    pip install jieba
  • 分词有两种模式,cut_all = True or False,默认为False。第一种会尽量返回所有可能构成的词汇,第二种就是按最优去切分
    text = '我和小明一起去北京故宫博物馆玩'
    import jieba
    wordlist = jieba.cut(text, cut_all=True)
    word_space_split = " ".join(wordlist)
    print(word_space_split)
    #我 和 小 明 一起 去 北京 北京故宫 故宫 博物 博物馆 玩
    wordlist = jieba.cut(text, cut_all=False)
    word_space_split = " ".join(wordlist)
    print(word_space_split)
    #我 和 小明 一起 去 北京故宫 博物馆 玩

  • 如果想只要长度大于2的词
    words = [x for x in jieba.cut(text) if len(x) >= 2]
    #['小明', '一起', '北京故宫', '博物馆']
  • 分词时也可以同时标注词性
    import jieba.posseg as psg
    print([(x.word,x.flag) for x in psg.cut(text)])
    #[('我', 'r'), ('和', 'c'), ('小明', 'n'), ('一起', 'm'), ('去', 'v'), ('北京故宫', 'ns'), ('博物馆', 'n'), ('玩', 'v')]
  • 如果文本中有专有名词,也可以使用自己的字典
    jieba.load_userdict('user_dict.txt')
    print(' '.join(jieba.cut(text)))
    user_dict.txt 格式为每行是一个词,依次为词名,词频,词性
    或者是直接加入词汇
    jieba.add_word('小明')
    或者
    print('/'.join(jieba.cut('我和小明', HMM=False)))
    print(jieba.suggest_freq('我和', True))
    print('/'.join(jieba.cut('我和小明', HMM=False)))
    print(jieba.suggest_freq(('我','和'), True))
    print('/'.join(jieba.cut('我和小明', HMM=False)))
    #我/和/小/明
    #3041
    #我和/小/明
    #3040
    #我/和/小/明

  • 取频率最高的5个词
    from collections import Counter
    c = Counter(text).most_common(5)
  • 并行计算
    #打开,num为进程参数
    jieba.enable_parallel(num)
    #关闭
    jieba.disable_parallel()
  • 结巴词性表

    形容词(1个一类,4个二类)

    a 形容词

    ad 副形词

    an 名形词

    ag 形容词性语素

    al 形容词性惯用语

    区别词(1个一类,2个二类)

    b 区别词

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值