分词/关键词提取
seg = jieba.cut(content)
jieba.analyse.set_stop_words('stopword.txt')
keyWord = jieba.analyse.extract_tags(
'|'.join(seg), topK=20, withWeight=True, allowPOS=())
词性标注
>>> import jieba.posseg as pseg
>>> words =pseg.cut("我爱北京天安门")
>>> for w in words:
... print(w.word,w.flag)
...
我 r
爱 v
北京 ns
天安门 ns
本文介绍使用结巴分词进行中文文本的分词及关键词提取的方法。通过具体实例展示了如何设置停用词并提取带有词性和权重的关键词。
7247

被折叠的 条评论
为什么被折叠?



