python 去除停用词结巴分词

最新推荐文章于 2024-07-05 14:19:56 发布

转载最新推荐文章于 2024-07-05 14:19:56 发布 · 2.2w 阅读

文章标签：

#python

机器学习专栏收录该内容

35 篇文章

订阅专栏

本文通过一个简单的例子展示了如何使用jieba进行中文文本的分词处理，并去除停用词。代码中定义了一个包含部分停用词的小型停用词表，然后对‘北京附近的租房’这一短句进行了分词，并过滤掉停用词。

#coding:gbk
import jieba
#stopwords = {}.fromkeys([ line.rstrip() for line in open('stopword.txt') ])
stopwords = {}.fromkeys(['的', '附近'])
segs = jieba.cut('北京附近的租房', cut_all=False)
final = ''
for seg in segs:
    seg = seg.encode('gbk')
    if seg not in stopwords:
            final += seg
print final