NLP-中文文本预处理

jieba是处理中文分词的库,提供了基本分词、添加自定义词典、关键词提取(TF-IDF和TextRank算法)、词性标注、Tokenize和去除停止词等功能。在关键词提取中,可以通过设置IDF和stop_words路径来定制语料库。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

jieba

jieba是一个专门处理中文分词的分词库,但其实功能比单纯的分词强大许多。

中文不同于英文可以通过空格分开每个有意义的词,对于中文需要一个工具将完整的文本分割成更细致的词语,类似于英文分词中使用的nltk工具,中文中需要使用jieba。

pip install jieba

目录


1.基本分词函数

  • jieba.cut()接受三个输入参数
    ①需要进行分词的字符串
    ②cut_all控制是否采用全模式
    ③HMM参数控制是否使用HMM模型

  • jieba.cut_for_search()接受两个参数
    ①需要进行分词的字符串
    ②是否使用HMM模型
    (该方法用于搜索引擎构建倒排索引的分词中)

  • jieba.lcut()以及jieba.lcut_for_search()直接返回list
import jieba
word = jieba.cut('他去了杭研大厦',cut_all=False)
#精确模式
#结果:他/去/了/杭研/大厦/

word = jieba.cut_for_search('小明硕士毕业于中国科学院计算所')
print(','.join(word))
#结果:小明,硕士,毕业,于,中物,中物院,计算,计算所

word = jieba.lcut_for_search("小明硕士毕业于中物院计算所")
print(' '.join(word))
#小明 硕士 毕业 于 中物 中物院 计算 计算所

2. 添加用户自定义词典

当对于特定场景进

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值