jieba
jieba是一个专门处理中文分词的分词库,但其实功能比单纯的分词强大许多。
中文不同于英文可以通过空格分开每个有意义的词,对于中文需要一个工具将完整的文本分割成更细致的词语,类似于英文分词中使用的nltk工具,中文中需要使用jieba。
pip install jieba
目录
1.基本分词函数
jieba.cut()接受三个输入参数
①需要进行分词的字符串
②cut_all控制是否采用全模式
③HMM参数控制是否使用HMM模型jieba.cut_for_search()接受两个参数
①需要进行分词的字符串
②是否使用HMM模型
(该方法用于搜索引擎构建倒排索引的分词中)- jieba.lcut()以及jieba.lcut_for_search()直接返回list
import jieba
word = jieba.cut('他去了杭研大厦',cut_all=False)
#精确模式
#结果:他/去/了/杭研/大厦/
word = jieba.cut_for_search('小明硕士毕业于中国科学院计算所')
print(','.join(word))
#结果:小明,硕士,毕业,于,中物,中物院,计算,计算所
word = jieba.lcut_for_search("小明硕士毕业于中物院计算所")
print(' '.join(word))
#小明 硕士 毕业 于 中物 中物院 计算 计算所
2. 添加用户自定义词典
当对于特定场景进行分词时,会出现一些领域的专有词汇,此时进行分词需要使用我们自定义的词典。
- 使用jieba.load_userdict(file_name)加载自定义词典
- 少量词汇可以在代码中添加
①用add.word(word,freq=None,tag=None)和del_word(word)添加和删除
②用suggest_freg(segment,tune=True)可调节单个词语的词频,使其能/不能被分出来
(自定义词典格式:深度学习 100 n 一行上面有三列,第二个是指出现的次数,第三个是词性)
word = jieba.cut('在

jieba是处理中文分词的库,提供了基本分词、添加自定义词典、关键词提取(TF-IDF和TextRank算法)、词性标注、Tokenize和去除停止词等功能。在关键词提取中,可以通过设置IDF和stop_words路径来定制语料库。
最低0.47元/天 解锁文章
5140

被折叠的 条评论
为什么被折叠?



