#coding:gbk
import jieba
#stopwords = {}.fromkeys([ line.rstrip() for line in open('stopword.txt') ])
stopwords = {}.fromkeys(['的', '附近'])
segs = jieba.cut('北京附近的租房', cut_all=False)
final = ''
for seg in segs:
seg = seg.encode('gbk')
if seg not in stopwords:
final += seg
print final
python 去除停用词 结巴分词
最新推荐文章于 2024-07-05 14:19:56 发布
本文通过一个简单的例子展示了如何使用jieba进行中文文本的分词处理,并去除停用词。代码中定义了一个包含部分停用词的小型停用词表,然后对‘北京附近的租房’这一短句进行了分词,并过滤掉停用词。
4万+

被折叠的 条评论
为什么被折叠?



