jieba
jieba是一个专门处理中文分词的分词库,但其实功能比单纯的分词强大许多。
中文不同于英文可以通过空格分开每个有意义的词,对于中文需要一个工具将完整的文本分割成更细致的词语,类似于英文分词中使用的nltk工具,中文中需要使用jieba。
pip install jieba
目录
1.基本分词函数
jieba.cut()接受三个输入参数
①需要进行分词的字符串
②cut_all控制是否采用全模式
③HMM参数控制是否使用HMM模型jieba.cut_for_search()接受两个参数
①需要进行分词的字符串
②是否使用HMM模型
(该方法用于搜索引擎构建倒排索引的分词中)- jieba.lcut()以及jieba.lcut_for_search()直接返回list
import jieba
word = jieba.cut('他去了杭研大厦',cut_all=False)
#精确模式
#结果:他/去/了/杭研/大厦/
word = jieba.cut_for_search('小明硕士毕业于中国科学院计算所')
print(','.join(word))
#结果:小明,硕士,毕业,于,中物,中物院,计算,计算所
word = jieba.lcut_for_search("小明硕士毕业于中物院计算所")
print(' '.join(word))
#小明 硕士 毕业 于 中物 中物院 计算 计算所
2. 添加用户自定义词典
当对于特定场景进